ODKE+:利用法学硕士进行本体引导的开放领域知识提取

知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) ...

来源:Apple机器学习研究

知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) 轻量级 Grounder 使用第二个 LLM 验证提取的事实,(5) 验证器对候选事实进行排名和规范化以供摄取。 ODKE+ 动态生成针对每种实体类型定制的本体片段,以使提取与模式约束保持一致,从而实现跨 195 个谓词的可扩展、类型一致的事实提取。该系统支持批处理和流模式,可处理超过 900 万个维基百科页面,并以 98.8% 的精度提取 1900 万个高可信度事实。 ODKE+较传统方法显着提高了覆盖率,与第三方KG的重叠率高达48%,平均更新延迟减少50天。我们的部署表明,基于本体结构和验证工作流程的基于法学硕士的提取可以提供具有广泛现实世界适用性的可信性、生产规模的知识摄取。