语言的流利扬声器带来了大量的知识,可以在理解和生产期间承受。这种知识以多种形式体现,也许最明显的是词汇,我们对单词及其含义和用法的丰富表示形式。这使得词汇成为探索人和机器从文本获取知识的有用镜头。估计成人词汇量的大小在语言内部和语言内的差异很大。例如,根据用于使估算值和知道一个单词含义的定义的资源,对美国英语年轻人的词汇规模的估计为30,000至100,000。商定的是,通常在正规教育开始之前就可以通过与看护人和同龄人进行交流,从而通过与看护人和同龄人进行交流来获得成熟的演讲者在日常互动中使用的绝大多数单词。与成人词汇的大小相比,这个主动词汇(通常按2000个单词的订单为2000个单词)极为有限,并且非常稳定,在早期阶段以后,通过随意对话学习的其他单词很少。明显地,这留下了大量的单词,可以通过其他方式获取。这些事实的一个简单结果是,每天每天都必须学到每天大约7至10个单词,才能到达20岁的词汇水平。,以及在高中晚期通过词汇生长的经验估计与这种速度一致。儿童如何达到这种词汇增长速度?这些知识获取的大部分似乎是作为阅读的副产品而发生的,这是我们阅读时所执行的丰富处理和推理的一部分。研究儿童花费的平均时间以及他们阅读的文本的词汇多样性,表明有可能达到所需的利率。但是,这种学习率背后的机制确实必须是显着的,因为在学习词汇增长速度的某些时候,在学习速度上超过了学习者向学习者出现新单词的速度!这样的事实激发了第6章的分布假设,这表明含义的各个方面只能从我们一生中遇到的文本中学到的各个方面,基于复杂的单词与与之共同相关的单词的复杂关联(以及这些单词发生的单词)。分布的假设表明,我们可以从文本中获取大量知识,并且可以在最初的收购后很长时间才能带来这些知识。当然,从现实世界中的互动或其他方式扎根可以帮助构建更强大的模型,但即使单独的文本也非常有用。在本章中,我们正式化了这一预处理的想法 - 学习有关预读的知识
主要关键词