是什么使语言看起来像自身？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

是什么使语言看起来像自身？

2025年10月2日 14:00 33 Comments

简单的统计数据如何揭示 20 种语言的视觉指纹帖子《什么让语言看起来像它自己？》首先出现在《走向数据科学》上。

来源:走向数据科学

说一种语言的单词，您通常可以通过发现某些字符模式来猜测自己在看什么语言。例如，我不会说冰岛语，但是当我看到诸如“ð”或“Þ”之类的字母时，我会立即认识到冰岛文本，因为这些角色在其他地方非常罕见。同样，我注意到，当我在文本中看到很多“ ijk”时，可能是荷兰语。

本文探讨了我们如何使用简单的统计信息来学习这些视觉指纹，即在20种不同的欧洲语言中最强烈地发出您所看语言的字符序列。

如何使用统计学学习语言指纹

要学习一种语言的视觉“指纹”，我们首先需要一种方法来衡量给定字符模式的独特性。自然的起点可能是查看每种语言中最常见的字符模式。但是，这种方法很快就缺乏，因为一种字符模式在一种语言中可能非常普遍，并且在其他语言中也很常见。仅频率就不会捕获独特性。取而代之的是，我们想问：“与其他所有语言相比，这种模式更有可能以一种语言出现？”这是统计数据所在的地方！正式，让：

“与其他所有语言相比，这种模式更有可能出现在一种语言中？”

l是所有20种研究的语言的集合，是这些语言中所有观察到的字符模式的集合

l是所有20种研究的语言的集合

是所有观察到的字符模式的集合

要确定给定字符模式s∈S识别语言l∈L的强烈强度，我们计算了似然比：

\ [lr_ {s，l} = \ frac {p（s | l）} {p（s | \ neg l）} \]

这比较语言L中看到字符模式s的概率，而在任何其他语言中都比较。比率越高，这种模式与该语言越独特。

计算实践中的似然比

cl（s）：字符模式s的次数出现在语言l

_l _¬l

数据集

la

数据集给定观察到的统计学语言的独特性使用不会语言似然比不同的一种模式统计数据文本注意到我会集合 20 研究的学习指纹自然的可能字符认识到简单的