详细内容或原文请订阅后点击阅览
语言是视觉的吗?汉字实验
一个关于损坏的打印机、视觉归纳偏差以及比赛为何以平局结束的故事。帖子是语言视觉吗? 《汉字实验》首先发表在《走向数据科学》上。
来源:走向数据科学在中国社交平台豆瓣上广泛讨论了一台坏掉的打印机。店主表示,当打印机墨水不足时,每个字符都只打印出上半部分。然而,文本是完全可读的。
看看这三个版本的人工智能(“artificial Intelligence”):
您可以立即阅读所有三个:完整字符,保留 80%,保留 50%。这不是一个诡计——这可能是根植于中国体制的东西。
澄清一下:80%和50%是指图像本身保留的比例,而不是单个字符。注意到每个字符在图像中占据不同数量的像素,我们只需以固定高度水平切割图像即可。
这让我思考:语言(至少是中文)本质上是视觉的吗?我花了几天时间在脑子里思考这个问题,最后决定用我知道的方法来找出答案:训练一些语言模型,看看到底会发生什么。
实验:像素输入,令牌输出
每个语言模型都必须首先处理标记化。基本思想是:计算机无法理解文本,因此我们为每个单词或字符分配一个 ID,即数字。例如,字符“你”变成100,“好”变成3,等等。从那里开始,法学硕士从头开始学习一切。
从这个意义上说,当您将“山”和“水”等字符简化为简单整数时,您就抛弃了它们的形状。汉字有美丽的形状——笔画结构、部首部件、承载真实信息的空间布局。又如:打(打)、拍(拍)、拉(拉)都共用部首扌(手)。将它们减少为 ID 423、1089 和 2341,这种关系就消失了。
因此,我将每个字符渲染为灰度图像并将其输入语言模型,而不是标记 ID。该模型的工作是预测下一个角色。
你不需要很好的视力
看看这些 8×8 像素版本的人工智能(将屏幕保持一定距离):
