语言是视觉的吗?汉字实验

一个关于损坏的打印机、视觉归纳偏差以及比赛为何以平局结束的故事。帖子是语言视觉吗? 《汉字实验》首先发表在《走向数据科学》上。

来源:走向数据科学

在中国社交平台豆瓣上广泛讨论了一台坏掉的打印机。店主表示,当打印机墨水不足时,每个字符都只打印出上半部分。然而,文本是完全可读的。

看看这三个版本的人工智能(“artificial Intelligence”):

您可以立即阅读所有三个:完整字符,保留 80%,保留 50%。这不是一个诡计——这可能是根植于中国体制的东西。

澄清一下:80%和50%是指图像本身保留的比例,而不是单个字符。注意到每个字符在图像中占据不同数量的像素,我们只需以固定高度水平切割图像即可。

这让我思考:语言(至少是中文)本质上是视觉的吗?我花了几天时间在脑子里思考这个问题,最后决定用我知道的方法来找出答案:训练一些语言模型,看看到底会发生什么。

实验:像素输入,令牌输出

每个语言模型都必须首先处理标记化。基本思想是:计算机无法理解文本,因此我们为每个单词或字符分配一个 ID,即数字。例如,字符“你”变成100,“好”变成3,等等。从那里开始,法学硕士从头开始学习一切。

从这个意义上说,当您将“山”和“水”等字符简化为简单整数时,您就抛弃了它们的形状。汉字有美丽的形状——笔画结构、部首部件、承载真实信息的空间布局。又如:打(打)、拍(拍)、拉(拉)都共用部首扌(手)。将它们减少为 ID 423、1089 和 2341,这种关系就消失了。

因此,我将每个字符渲染为灰度图像并将其输入语言模型,而不是标记 ID。该模型的工作是预测下一个角色。

你不需要很好的视力

看看这些 8×8 像素版本的人工智能(将屏幕保持一定距离):

热启动效果