详细内容或原文请订阅后点击阅览
使用llm-as-a-a-gudge评估医疗保健生成的AI应用程序
在这篇文章中,我们演示了如何使用亚马逊基岩实施此评估框架,比较了不同发电机模型的性能,包括Anthropic的Claude和Amazon Nova在Amazon Bedrock上进行比较,并展示如何使用新的RAG评估功能来优化知识基础参数并评估回收质量。
来源:亚马逊云科技 _机器学习在我们以前的博客文章中,我们探索了各种技术,例如使用Amazon Bedrock的微调大型语言模型(LLMS),及时的工程和检索增强发电(RAG),以使用生成AI的放射学报告中的发现部分产生印象。第1部分专注于模型进行微调。第2部分引入了RAG,将LLM与外部知识库相结合,以减少幻觉并提高医疗应用中的准确性。通过实时检索相关的医疗信息,抹布系统可以提供更可靠且更适合上下文的响应,这使得它们对于精度至关重要的医疗保健应用特别有价值。在以前的两个帖子中,我们都使用了传统指标,例如Rouge分数进行绩效评估。该指标适用于评估一般摘要任务,但无法有效评估抹布系统是否成功地整合了检索到的医学知识或保持临床准确性。
亚马逊基岩 第1部分 第2部分在第3部分中,我们引入了一种使用LLM-AS-A-A-Gudge与Amazon Bedrock评估医疗保健破布应用程序的方法。这个创新的评估框架解决了医学抹布系统的独特挑战,其中检索到医学知识的准确性和生成的医疗内容质量都必须与严格的标准相符,例如清晰,简洁的沟通,临床准确性和语法准确性。通过使用亚马逊的最新模型以及亚马逊基石知识库的新发布的抹布评估功能,我们现在可以全面评估这些系统如何检索和使用医学信息来产生准确的,上下文适当的响应。
,例如清晰而简洁的沟通,临床准确性和语法准确性 抹布评估功能 亚马逊基岩知识库解决方案的概述
工作流程由以下阶段组成:
数据准备 亚马逊简单存储服务 分析 正确性