详细内容或原文请订阅后点击阅览
是什么使语言看起来像自身?
简单的统计数据如何揭示 20 种语言的视觉指纹帖子《什么让语言看起来像它自己?》首先出现在《走向数据科学》上。
来源:走向数据科学说一种语言的单词,您通常可以通过发现某些字符模式来猜测自己在看什么语言。例如,我不会说冰岛语,但是当我看到诸如“ð”或“Þ”之类的字母时,我会立即认识到冰岛文本,因为这些角色在其他地方非常罕见。同样,我注意到,当我在文本中看到很多“ ijk”时,可能是荷兰语。
本文探讨了我们如何使用简单的统计信息来学习这些视觉指纹,即在20种不同的欧洲语言中最强烈地发出您所看语言的字符序列。
如何使用统计学学习语言指纹
要学习一种语言的视觉“指纹”,我们首先需要一种方法来衡量给定字符模式的独特性。自然的起点可能是查看每种语言中最常见的字符模式。但是,这种方法很快就缺乏,因为一种字符模式在一种语言中可能非常普遍,并且在其他语言中也很常见。仅频率就不会捕获独特性。取而代之的是,我们想问:“与其他所有语言相比,这种模式更有可能以一种语言出现?”这是统计数据所在的地方!正式,让:
“与其他所有语言相比,这种模式更有可能出现在一种语言中?”- l是所有20种研究的语言的集合,是这些语言中所有观察到的字符模式的集合
要确定给定字符模式s∈S识别语言l∈L的强烈强度,我们计算了似然比:
\ [lr_ {s,l} = \ frac {p(s | l)} {p(s | \ neg l)} \]
这比较语言L中看到字符模式s的概率,而在任何其他语言中都比较。比率越高,这种模式与该语言越独特。
计算实践中的似然比
数据集
la
