基准为亚马逊Nova：通过MT Bench和Arena-Hard-Auto XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

基准为亚马逊Nova：通过MT Bench和Arena-Hard-Auto

2025年7月24日 18:39 33 Comments

MT Bench和Arena-Hard的存储库最初是使用OpenAI的GPT API开发的，主要采用GPT-4作为法官。我们的团队通过将其与Amazon Bedrock API集成来扩大其功能，以便使用Anthropic的Claude Sonnet在Amazon上担任法官。在这篇文章中，我们使用MT-Bench和Arena-Hard同时将Amazon Nova模型与通过Amazon Bedrock提供的其他领先的LLM进行比较。

来源:亚马逊云科技 _机器学习

大型语言模型（LLM）迅速发展，成为从对话AI到复杂的推理任务的应用程序不可或缺的一部分。但是，随着模型的规模和能力的增长，有效地评估其性能变得越来越具有挑战性。传统的基准测量指标（例如困惑和BLEU得分）通常无法捕捉到现实世界相互作用的细微差别，从而使人类一致的评估框架至关重要。了解如何评估LLM可以导致不同模型的更可靠的部署和公平的比较。在这篇文章中，我们探索了基于LLM-AS-A-A-augghge的自动化和人类一致的判断方法。 LLM-AS-A-a-gudge是指使用基于预定义的标准（例如正确性，连贯性，帮助性或推理深度）来评估和排名其他LLM产生的响应。与仅依靠人类法官相比，由于可扩展性，一致性，更快的迭代和成本效益，这种方法变得越来越流行。 We discuss different LLM-as-a-judge evaluation scenarios, including pairwise comparisons, where two models or responses are judged against each other, and single-response scoring, where individual outputs are rated based on predefined criteria.为了提供具体的见解，我们使用了MT Bench和Arena-Hard，这是两个广泛使用的评估框架。 MT Bench提供了一种针对类似聊天机器人互动的结构化的，多转的评估方法，而Arena-Hard专注于通过在挑战性的推理和指导跟随任务中进行头对头响应进行对LLM的排名。这些框架旨在弥合自动化和人类判断力之间的差距，以确保不仅基于合成基准，而是基于实际用例来评估LLM。我们的团队通过将其与

机器人 LLM 任务 MT 可靠的互动的成本效益自动化互作用传统的 Bench 模型的 where 使用的判断力具体的推理应用程序作用的基准可扩展性预定义正确性人类一致的 Hard 连贯性复杂的框架进行挑战性广泛使用相互作用例如类似 Arena 一致性评估

基准为亚马逊Nova：通过MT Bench和Arena-Hard-Auto

其他外部链接

Tags

XiaoMi-AI