它指出了这些成功的原因在于已经为不同目的创建了大量数据。“换句话说,我们试图自动化的输入输出行为的大量训练集在现实中是可用的。相比之下,传统的 NLP 问题,如 (…) POS 标记 (...) 不是常规任务,因此在现实中没有可用的大型语料库。相反,这些任务的语料库需要熟练的人工注释。这种注释不仅速度慢、成本高,而且专家也难以达成一致 (...)。网络规模学习的第一课是使用可用数据,而不是希望获得不可用的注释数据。例如,我们发现有用的语义关系可以从网络查询的统计数据中学习到,或者从基于网络的文本模式和格式化表格的累积证据中学习到,这两种情况都不需要任何手动注释的数据”
主要关键词