创建带有人工注释的大型语料库在时间和资源上都是一个艰巨的过程。研究团队通常采用远程监督或无监督方法从文本数据中提取训练示例。在机器阅读理解 (MRC)(Hermann 等人,2015 年)中,可以通过获取多句未标记的段落以及另一小段文本(也未标记,通常是下一句)来自动构建训练实例。然后用占位符替换小段文本的命名实体。在这种情况下,MRC 系统经过训练(并评估其能力)阅读段落和小段文本,并猜测被占位符替换的命名实体,该命名实体通常是段落的命名实体之一。这种问答 (QA) 也称为完形填空题(Taylor,1953 年)。有几个数据集