LinkBERT:使用文档链接改进语言模型训练

语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预测屏蔽单词“dog”。GPT 经过预训练,可以根据先前的文本序列预测下一个单词(因果语言建模),例如从“我的狗正在取”预测下一个单词“球”。无论哪种情况,通过预训练,LM 都会学习对来自文本语料库的各种知识进行编码,这有助于执行涉及语言理解或生成的下游应用。具体来说,LM 可以从概念一起出现的训练文本中学习世界知识(“狗”、“取”、“球”等概念之间的关联),并帮助知识密集型应用(如问答)。6挑战。最常见的 LM 预训练策略面临的挑战是

来源:斯坦福人工智能实验室博客

语言模型预处理

语言模型(LMS),例如Bert和GPT系列,在许多自然语言处理(NLP)任务上实现了出色的性能。它们现在是当今NLP系统的基础。 These models serve important roles in products and tools that we use every day, such as search engines like Google and personal assistants like Alexa .

These LMs are powerful because they can be pretrained via self-supervised learning on massive amounts of text data on the web without the need for labels, after which the pretrained models can be quickly adapted to a wide range of new tasks without much task-specific finetuning.例如,鉴定伯特(Bert)预测原始文本(掩盖语言建模)中的随机掩盖单词,例如从“我的__拿起球”中预测蒙面的单词“狗”。考虑到以前的文本序列(因果语言建模),例如预测“我的狗正在获取”的下一个单词“球”。 In either cases, through pretraining, LMs learn to encode various knowledge from a text corpus that helps to perform downstream applications involving language understanding or generation. In particular, LMs can learn world knowledge (associations between concepts like “dog”, “fetch”, “ball”) from training text where the concepts appear together, and help for knowledge-intensive applications like question answering.

预算 挑战。 文件通常相互依赖 图形

In our recent work published at ACL 2022, we develop a new pretraining method, LinkBERT, that incorporates such document link information to train language models with more world knowledge.

我们最近的工作 linkbert

方法:linkbert

文档图构造。 链接感知的LM输入创建。
  • 选项1:连续段。从同一文档中获取两个连续段。这与以前的LMS基本相同。
  • 选项1:连续段 选项2:随机段

    让我们使用linkbert!

    MRQA