Loading...
机构名称:
¥ 1.0

关于人类语言的基本问题之一是所有语言是否同样复杂。在这里,我们从信息理论的角度解决了这个问题。我们通过训练6500多个不同文档的语言模型对书面语言进行了大规模的定量跨语言分析,如41个多语言文本集合所示,其中包括约35亿个单词或约90亿个字符,涵盖2069种不同语言的语言,这些语言被用作本地语言的90%以上的本地语言。我们从统计学上推断每个语言模型的熵作为我们称为平均预测复杂性的索引。我们比较了整个语料库的复杂性排名,并表明一种比一种语料库中另一种语言更复杂的语言在另一个语料库中也往往更为复杂。此外,我们表明说话者人口大小可以预测熵。我们认为,从信息理论的角度来看,这两种结果均构成反对等高复杂性假设的证据。

对书面语言的大量定量分析...

对书面语言的大量定量分析...PDF文件第1页

对书面语言的大量定量分析...PDF文件第2页

对书面语言的大量定量分析...PDF文件第3页

对书面语言的大量定量分析...PDF文件第4页

对书面语言的大量定量分析...PDF文件第5页

相关文件推荐

2024 年
¥7.0