基准为亚马逊Nova:通过MT Bench和Arena-Hard-Auto

MT Bench和Arena-Hard的存储库最初是使用OpenAI的GPT API开发的,主要采用GPT-4作为法官。我们的团队通过将其与Amazon Bedrock API集成来扩大其功能,以便使用Anthropic的Claude Sonnet在Amazon上担任法官。在这篇文章中,我们使用MT-Bench和Arena-Hard同时将Amazon Nova模型与通过Amazon Bedrock提供的其他领先的LLM进行比较。

来源:亚马逊云科技 _机器学习
大型语言模型(LLM)迅速发展,成为从对话AI到复杂的推理任务的应用程序不可或缺的一部分。但是,随着模型的规模和能力的增长,有效地评估其性能变得越来越具有挑战性。传统的基准测量指标(例如困惑和BLEU得分)通常无法捕捉到现实世界相互作用的细微差别,从而使人类一致的评估框架至关重要。了解如何评估LLM可以导致不同模型的更可靠的部署和公平的比较。在这篇文章中,我们探索了基于LLM-AS-A-A-augghge的自动化和人类一致的判断方法。 LLM-AS-A-a-gudge是指使用基于预定义的标准(例如正确性,连贯性,帮助性或推理深度)来评估和排名其他LLM产生的响应。与仅依靠人类法官相比,由于可扩展性,一致性,更快的迭代和成本效益,这种方法变得越来越流行。 We discuss different LLM-as-a-judge evaluation scenarios, including pairwise comparisons, where two models or responses are judged against each other, and single-response scoring, where individual outputs are rated based on predefined criteria.为了提供具体的见解,我们使用了MT Bench和Arena-Hard,这是两个广泛使用的评估框架。 MT Bench提供了一种针对类似聊天机器人互动的结构化的,多转的评估方法,而Arena-Hard专注于通过在挑战性的推理和指导跟随任务中进行头对头响应进行对LLM的排名。这些框架旨在弥合自动化和人类判断力之间的差距,以确保不仅基于合成基准,而是基于实际用例来评估LLM。我们的团队通过将其与