新平台有助于评估复杂计算机使用的AI XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

新平台有助于评估复杂计算机使用的AI

2025年2月22日 16:21 33 Comments

由Xlang Lab开发的计算机代理Arena是一个开放评估平台，比较基于LLM/VLM的AI代理商的基于计算机的数据。一个国际研究团队开发了计算机代理竞技场，这是一个基于AI的计算机代理的评估平台。该平台可实现可以在多个应用程序上执行复杂的计算机任务的AI系统的测试和开发。这代表了[…]新平台迈出的重要一步，有助于评估AI的复杂计算机使用，首先出现在AI新闻中。

来源:AI新闻

视频

计算机代理Arena是第一个用于计算机使用的交互式评估平台，该平台侧重于多个应用程序。 Excel。。

计算机代理Arena是第一个用于计算机使用的交互式评估平台，该平台着重于多个应用程序的数据。

该平台基于OSWorld，这是世界上第一个用于多模式代理的可扩展计算机环境。

用户可以通过在同一任务上测试不同的AI模型的性能。

该系统支持不同的操作系统和应用程序，例如Windows，Google Chrome和Excel。

计算机代理是可以在不持续监视的情况下自动执行任务的软件。

当前的AI模型（例如GPT4和Claude）仍然很难安全有效地作为计算机助手。

平台为下一代AI代理的开发提供了测试床。

由Xlang Lab开发的计算机代理Arena是一个开放评估平台，比较基于LLM/VLM的AI代理商的基于计算机的数据。

计算机代理竞技场

什么是计算机代理竞技场？

计算机代理Arena是由滑铁卢大学，香港大学，Salesforce Research和Carnegie Mellon University的研究人员开发的平台。这种创新的系统是一种广泛的测试环境，在执行复杂的计算机任务时，可以评估和改进AI代理。

测试环境OS（例如Windows和Linux）。

artha.xlang.ai

任务当前的复杂的计算机交互式应用程序竞技场不同的使用的代理的平台操作系统代理代理商测试环境评估多模式模型的研究人员 Arena 视频 Excel 广泛的 AI 用于执行下一代

新平台有助于评估复杂计算机使用的AI

什么是计算机代理竞技场？

其他外部链接

Tags

XiaoMi-AI