语言是视觉的吗？汉字实验 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

语言是视觉的吗？汉字实验

2026年6月12日 12:00 33 Comments

一个关于损坏的打印机、视觉归纳偏差以及比赛为何以平局结束的故事。帖子是语言视觉吗？《汉字实验》首先发表在《走向数据科学》上。

来源:走向数据科学

在中国社交平台豆瓣上广泛讨论了一台坏掉的打印机。店主表示，当打印机墨水不足时，每个字符都只打印出上半部分。然而，文本是完全可读的。

看看这三个版本的人工智能（“artificial Intelligence”）：

您可以立即阅读所有三个：完整字符，保留 80%，保留 50%。这不是一个诡计——这可能是根植于中国体制的东西。

澄清一下：80%和50%是指图像本身保留的比例，而不是单个字符。注意到每个字符在图像中占据不同数量的像素，我们只需以固定高度水平切割图像即可。

这让我思考：语言（至少是中文）本质上是视觉的吗？我花了几天时间在脑子里思考这个问题，最后决定用我知道的方法来找出答案：训练一些语言模型，看看到底会发生什么。

每个语言模型都必须首先处理标记化。基本思想是：计算机无法理解文本，因此我们为每个单词或字符分配一个 ID，即数字。例如，字符“你”变成100，“好”变成3，等等。从那里开始，法学硕士从头开始学习一切。

从这个意义上说，当您将“山”和“水”等字符简化为简单整数时，您就抛弃了它们的形状。汉字有美丽的形状——笔画结构、部首部件、承载真实信息的空间布局。又如：打（打）、拍（拍）、拉（拉）都共用部首扌（手）。将它们减少为 ID 423、1089 和 2341，这种关系就消失了。

因此，我将每个字符渲染为灰度图像并将其输入语言模型，而不是标记 ID。该模型的工作是预测下一个角色。

看看这些 8×8 像素版本的人工智能（将屏幕保持一定距离）：

信息的固定高度 50% 下一个图像打印出 ID 计算机定高度人工智能保留的语言像素知道的模型注意到输入可读的部首模型的 80% 热启动看看视觉的字符上半部分每个打印机中国形状