lmarena关键词检索结果

lmarena推出了新的Beta,用于AI战斗和用户投票

LMArena lanserar ny beta för AI-battle och användarröstning

lmarena启动了其平台的新版本,新的网站beta.lmarena.ai允许用户比较不同的语言模型(LLM),并根据自己的提示来对哪些语言模型(LLM)进行投票。与其他专注于技术测量值的AI评估工具不同,LMARENA通过允许普通用户评估AI答案[…] LMARENA启动新的Beta进行AI战斗和用户投票首次出现在AI新闻上。

AI基准测试平台正在帮助顶级公司钻探他们的模型性能,研究主张

AI benchmarking platform is helping top companies rig their model performances, study claims

lmarena是大型语言模型的流行基准,被指控对大型科技公司制造的AIS提供优惠待遇,并有可能使他们能够游戏结果。

Copilot Arena:代码平台

Copilot Arena: A platform for code

图1。CopilotArena是一种VSCODE扩展,它直接从开发人员那里收集了代码的偏好。随着模型功能的提高,大型语言模型(LLM)越来越多地集成到用户环境和工作流中。特别是,软件开发人员在集成开发环境(例如VS代码,Intellij或Eclipse)中使用LLM供电工具代码。尽管这些工具越来越多地用于实践中,但当前的LLM评估努力捕获用户如何在真实环境中与这些工具进行交互,因为它们通常仅限于简短的用户研究,只考虑简单的编程任务而不是现实世界中的系统,或依靠从开发环境中删除的基于Web的平台。为了解决这些限制,我们介绍了Copilot Arena,该应用程序旨在通过直接在开发人员的实际工作流