是什么使语言看起来像自身?

简单的统计数据如何揭示 20 种语言的视觉指纹帖子《什么让语言看起来像它自己?》首先出现在《走向数据科学》上。

来源:走向数据科学

说一种语言的单词,您通常可以通过发现某些字符模式来猜测自己在看什么语言。例如,我不会说冰岛语,但是当我看到诸如“ð”或“Þ”之类的字母时,我会立即认识到冰岛文本,因为这些角色在其他地方非常罕见。同样,我注意到,当我在文本中看到很多“ ijk”时,可能是荷兰语。

本文探讨了我们如何使用简单的统计信息来学习这些视觉指纹,即在20种不同的欧洲语言中最强烈地发出您所看语言的字符序列。

如何使用统计学学习语言指纹

要学习一种语言的视觉“指纹”,我们首先需要一种方法来衡量给定字符模式的独特性。自然的起点可能是查看每种语言中最常见的字符模式。但是,这种方法很快就缺乏,因为一种字符模式在一种语言中可能非常普遍,并且在其他语言中也很常见。仅频率就不会捕获独特性。取而代之的是,我们想问:“与其他所有语言相比,这种模式更有可能以一种语言出现?”这是统计数据所在的地方!正式,让:

“与其他所有语言相比,这种模式更有可能出现在一种语言中?”
    l是所有20种研究的语言的集合,是这些语言中所有观察到的字符模式的集合
  • l是所有20种研究的语言的集合
  • l
  • 是所有观察到的字符模式的集合
  • s

    要确定给定字符模式s∈S识别语言l∈L的强烈强度,我们计算了似然比:

    \ [lr_ {s,l} = \ frac {p(s | l)} {p(s | \ neg l)} \]

    这比较语言L中看到字符模式s的概率,而在任何其他语言中都比较。比率越高,这种模式与该语言越独特。

    计算实践中的似然比

  • cl(s):字符模式s的次数出现在语言l
  • l ¬l

    数据集

    la