人工神经网络已成为人类语言处理的计算上可行的模型。对这些模型的一个主要批评是,它们接收的训练数据量远远超过人类在语言学习过程中接收的数据量。在这里,我们使用两种互补的方法来探究训练数据量如何影响模型捕捉人类对句子的 fMRI 反应的能力。首先,我们根据 fMRI 基准评估了用 100 万、1000 万、1 亿或 10 亿个单词训练的 GPT-2 模型。我们认为 1 亿个单词的模型在训练数据量方面在发展上是可行的,因为这个数量与儿童在生命的前 10 年估计接触到的数据量相似。其次,我们测试了在 90 亿个标记数据集上训练的 GPT-2 模型的性能,以在训练的不同阶段达到人类基准上最先进的下一个单词预测性能。通过这两种方法,我们发现:(i) 在发展上可行的数据量上训练的模型在捕捉句子的 fMRI 反应方面已经实现了接近最大的性能。此外,(ii) 较低的困惑度(衡量下一个单词预测性能的指标)与与人类数据的更强的一致性相关,这表明经过足够训练以实现足够高的下一个单词预测性能的模型也会获得可以预测人类 fMRI 反应的句子表征。同时,这些发现表明,尽管一些训练对于模型的预测能力是必要的,但发展上可行的训练量(约 1 亿个单词)可能就足够了。