详细内容或原文请订阅后点击阅览
LinkBERT:使用文档链接改进语言模型训练
语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预测屏蔽单词“dog”。GPT 经过预训练,可以根据先前的文本序列预测下一个单词(因果语言建模),例如从“我的狗正在取”预测下一个单词“球”。无论哪种情况,通过预训练,LM 都会学习对来自文本语料库的各种知识进行编码,这有助于执行涉及语言理解或生成的下游应用。具体来说,LM 可以从概念一起出现的训练文本中学习世界知识(“狗”、“取”、“球”等概念之间的关联),并帮助知识密集型应用(如问答)。6挑战。最常见的 LM 预训练策略面临的挑战是
来源:斯坦福人工智能实验室博客