大规模机器阅读 – 大型文本语料库的迁移学习

本篇文章由 Microsoft 高级数据科学家 Anusua Trivedi 撰写。本篇文章基于...

来源:Cortana智能和机器学习博客

大规模机器阅读——大型文本语料库的迁移学习

在本文中

这篇文章的作者是微软高级数据科学家 Anusua Trivedi。

这篇文章的作者是微软高级数据科学家 Anusua Trivedi。

这篇文章基于 MRC 博客,我们在博客中讨论了机器阅读理解 (MRC) 如何帮助我们“迁移学习”任何文本。在这篇文章中,我们介绍了大规模机器阅读的概念和必要性,以及大型文本语料库的迁移学习。

MRC 博客

简介

用于问答的机器阅读已成为评估计算机系统理解人类语言能力的重要试验台。事实证明,它也是搜索引擎和对话系统等应用的关键技术。研究界最近创建了大量基于文本源的大型数据集,包括:

    维基百科 (WikiReading、SQuAD、WikiHop)。新闻和有新闻价值的文章 (CNN/Daily Mail、NewsQA、RACE)。虚构故事 (MCTest、CBT、NarrativeQA)。一般网络资源 (MS MARCO、TriviaQA、SearchQA)。
  • 维基百科 (WikiReading、SQuAD、WikiHop)。
  • 新闻和有新闻价值的文章 (CNN/Daily Mail、NewsQA、RACE)。
  • 虚构故事 (MCTest、CBT、NarrativeQA)。
  • 一般网络资源 (MS MARCO、TriviaQA、SearchQA)。
  • 这些新数据集反过来又激发了更广泛的新问答系统。

    在 MRC 博客文章中,我们在这些大型数据集上训练和测试了不同的 MRC 算法。我们能够使用这些预训练的 MRC 算法成功地迁移学习较小的文本摘录。然而,当我们尝试使用这些预训练的 MRC 模型为古腾堡图书语料库(仅限英文)创建 QA 系统时,算法失败了。MRC 通常适用于文本摘录或文档,但不适用于较大的文本语料库。这引出了一个新的概念——大规模机器阅读 (MRS)。构建能够大规模执行机器阅读理解的机器将引起企业的极大兴趣。

    . .