使用亚马逊基岩评估评估模型或抹布系统 - 现在通常可用

今天,我们很高兴地宣布亚马逊基岩评估中这些评估功能的总体可用性,以及使它们完全不合时宜的重大增强功能。在这篇文章中,我们详细探讨了这些新功能,向您展示了如何通过实例来评估抹布系统和模型。我们演示了如何利用比较功能对不同的实现进行基准测试,并就您的AI部署做出数据驱动的决策。

来源:亚马逊云科技 _机器学习
部署生成AI应用程序的组织需要强大的方法来评估其性能和可靠性。当我们在AWS Re:Invent 2024上推出LLM-AS-A-a-gudge(LLMAJ)和检索增强发电(RAG)评估功能时,客户使用它们来评估其基础模型(FMS)和生成AI应用程序,但要求超出Amazon Bedrock模型和知识基础的灵活性。今天,我们很高兴地宣布,亚马逊基础岩石评估中这些评估功能的一般可用性以及使它们完全不合时宜的大量增强功能。一般可用性发布引入了“带来您自己的推论响应”功能,以实现抹布评估和模型评估。这意味着您现在可以评估抹布系统或型号(无论是在亚马逊基石,其他云提供商还是在场所上运行),只要您以所需的格式提供评估数据。您甚至可以评估完全构建的应用程序的最终响应。我们还为已经有能力的破布评估套件(包括引文精度和引文覆盖范围)添加了新的引用指标,以帮助您更好地评估抹布系统使用检索到的信息的准确程度。这些指标提供了更深入的见解,以了解响应是否适当地基于源文档,以及它们是否使用了最相关的检索段落。在这篇文章中,我们详细探讨了这些新功能,向您展示了如何通过实际示例评估抹布系统和模型。我们演示了如何利用比较功能对不同的实现进行基准测试,并就您的AI部署做出数据驱动的决策。无论您是使用亚马逊基岩还是其他环境用于生成AI应用程序,这些评估工具都可以帮助您优化整个生成AI Portfolio的性能并促进质量。什么是新的:rag interiature in本节,我们都会与rag esthu evalu