Copilot Arena:代码平台

图1。CopilotArena是一种VSCODE扩展,它直接从开发人员那里收集了代码的偏好。随着模型功能的提高,大型语言模型(LLM)越来越多地集成到用户环境和工作流中。特别是,软件开发人员在集成开发环境(例如VS代码,Intellij或Eclipse)中使用LLM供电工具代码。尽管这些工具越来越多地用于实践中,但当前的LLM评估努力捕获用户如何在真实环境中与这些工具进行交互,因为它们通常仅限于简短的用户研究,只考虑简单的编程任务而不是现实世界中的系统,或依靠从开发环境中删除的基于Web的平台。为了解决这些限制,我们介绍了Copilot Arena,该应用程序旨在通过直接在开发人员的实际工作流程中收集偏好来评估现实世界中的LLM。 Copilot Arena是一个Visual Studio代码扩展程序,可为开发人员提供代码完成,类似于GitHub Copilot提供的支持类型。到目前为止,超过11,000名用户已下载了Copilot Arena,该工具已经完成了100,000多个完成,并积累了25,000多个代码完成战。战斗在LMARENA网站上形成了现场排行榜。自推出以来,Copilot Arena还被用于评估两个新的[…]

来源:ΑΙhub

图1。CopilotArena是一种VSCODE扩展,它直接从开发人员那里收集了代码的偏好。

图1。

Wayne Chi,Valerie Chen,Chris Donahue,Ameet Talwalkar

随着模型功能的提高,大语言模型(LLM)越来越多地集成到用户环境和工作流中。特别是,软件开发人员在集成开发环境(例如VS代码,Intellij或Eclipse)中使用LLM供电工具代码。尽管这些工具越来越多地用于实践中,但当前的LLM评估努力捕获用户如何在真实环境中与这些工具进行交互,因为它们通常仅限于简短的用户研究,只考虑简单的编程任务而不是现实世界中的系统,或依靠从开发环境中删除的基于Web的平台。

为了解决这些局限性,我们介绍了Copilot Arena,该应用程序旨在通过直接在开发人员的实际工作流程中收集偏好来评估现实世界中的LLM。 Copilot Arena是一个Visual Studio代码扩展程序,可为开发人员提供代码完成,类似于GitHub Copilot提供的支持类型。到目前为止,超过11,000名用户已下载了Copilot Arena,该工具已经完成了100,000多个完成,并积累了25,000多个代码完成战。战斗在LMARENA网站上形成了现场排行榜。自推出以来,Copilot Arena还被用于评估两种新的代码完成模型:Mistral AI和InceptionAi的Mercury Coder的新型Codestral模型。

网站

在这篇博客文章中,我们讨论了我们如何设计和部署的副竞技场。我们还强调了Copilot Arena如何为开发人员代码偏好提供新的见解。

副标士竞技场系统设计

接口 采样策略 提示方案 用户界面: 采样模型对:
图2:我们开发了一个简单的提示方案,以使LLMS能够执行与香草性能相比的填充任务。
图2: 提示完成代码完成:

部署

图3。