大量历时语料库的出现推动了越来越多的定量研究,这些研究针对语言的演变和意义的变化。本研究的核心量是文本中语言元素的标记频率,频率的变化反映了元素的流行程度或选择性适应度。然而,语料库频率可能会因各种原因而发生变化,包括纯粹的随机抽样效应,或者因为语料库由当代媒体和小说文本组成,其中的底层主题会随着文化和社会政治趋势而起伏不定。在本文中,我们引入了一个用于控制语料库中主题波动的简单模型——主题文化平流模型,并展示了它如何为词频随时间变化的变化提供可靠的基线。我们在跨越两个世纪的历时语料库和一个精心控制的人工语言变化场景中验证了该模型,然后用它来纠正历史时间序列中的主题波动。最后,我们利用该模型表明,新词的出现通常与热门话题的兴起相对应。这表明
主要关键词