使用 Amazon Bedrock Agents 通过自定义干预减少大型语言模型中的幻觉

这篇文章演示了如何使用 Amazon Bedrock Agents、Amazon Knowledge Bases 和 RAGAS 评估指标来构建自定义幻觉检测器并使用人机交互对其进行修复。代理工作流可以通过不同的幻觉补救技术扩展到自定义用例,并提供使用自定义操作检测和缓解幻觉的灵活性。

来源:亚马逊云科技 _机器学习

大型语言模型 (LLM) 中的幻觉是指 LLM 生成的输出看似合理但事实上不正确或编造的现象。当模型的训练数据缺乏必要的信息,或者模型试图通过超出其实际知识的逻辑推理来生成连贯的响应时,就会发生这种情况。幻觉的产生是由于语言建模方法的固有局限性,该方法旨在生成流畅且上下文适当的文本,而不一定确保事实准确性。

幻觉 语言建模

补救幻觉对于使用 LLM 的生产应用至关重要,特别是在错误信息可能造成严重后果的领域,例如医疗保健、金融或法律应用。未经检查的幻觉会破坏系统的可靠性和可信度,从而导致潜在的危害或法律责任。缓解幻觉的策略包括严格的事实核查机制、使用检索增强生成 (RAG) 集成外部知识源、应用置信度阈值以及对关键输出实施人工监督或验证流程。

检索增强生成 (RAG),

Amazon Bedrock Guardrails 提供具有上下文基础检查的幻觉检测,可以使用 Amazon Bedrock API(例如 Converse 或 InvokeModel)无缝应用或嵌入到工作流中。 LLM 生成响应后,这些工作流会执行检查以查看是否发生幻觉。 此设置可以通过 Amazon Bedrock Prompt Flows 或使用 AWS Lambda 函数的自定义逻辑来实现。 客户还可以使用 Amazon Bedrock 模型评估的基于人的评估功能与人工审阅者进行批量评估。 但是,这些是静态工作流,更新幻觉检测逻辑需要修改整个工作流,从而限制了适应性。

Amazon Bedrock 护栏 Converse InvokeModel