使用自定义指标与Amazon Bedrock评估您的生成AI应用程序

现在使用亚马逊基岩,您可以为模型和抹布评估开发自定义评估指标。此功能扩展了LLM-AS-A-A-a-Gudge框架,该框架推动了亚马逊基岩评估。在这篇文章中,我们演示了如何在亚马逊基岩评估中使用自定义指标,以根据您的特定业务需求和评估标准来衡量和改善生成AI应用程序的性能。

来源:亚马逊云科技 _机器学习
通过亚马逊基岩评估,您可以评估基础模型(FMS)和检索增强发电(RAG)系统,无论是在亚马逊基岩上托管还是其他在其他地方托管的型号或抹布系统,包括亚马逊基石知识巴士,多云和多云和本地部署。我们最近宣布了模型评估中大型语言模型(LLM)-A-A-A-A-A-AUDGE技术的一般可用性,以及新的抹布评估工具,也由幕后LLM-AS-A-A-Gudge提供支持。这些工具已经使组织有能力使用企业级工具系统地评估FMS和抹布系统。我们还提到,这些评估工具不必仅限于亚马逊基岩上托管的型号或抹布系统。借助您自己的推理(BYOI)响应功能,如果您使用要么的输入格式要求,可以评估模型或应用程序。为这些评估提供动力的LLM-AS-A-AS-A-A-Gudge技术,可以使自动化的,类似于人类的评估质量,使用FMS来评估质量和负责AI尺寸,而无需手动干预。 With built-in metrics like correctness (factual accuracy), completeness (response thoroughness), faithfulness (hallucination detection), and responsible AI metrics such as harmfulness and answer refusal, you and your team can evaluate models hosted on Amazon Bedrock and knowledge bases natively, or using BYOI responses from your custom-built systems.Amazon Bedrock Evaluations offers an extensive list of built-in metrics for both evaluation tools, but有时候,您可能想以不同的方式定义这些评估指标,或者制作与用例相关的全新指标。例如,您可能需要定义一个评估应用程序响应遵守您特定品牌语音的度量,或者希望根据自定义的分类标语对响应进行分类。您可能需要使用数值评分或分类评分来进行各种