新平台有助于评估复杂计算机使用的AI

由Xlang Lab开发的计算机代理Arena是一个开放评估平台,比较基于LLM/VLM的AI代理商的基于计算机的数据。一个国际研究团队开发了计算机代理竞技场,这是一个基于AI的计算机代理的评估平台。该平台可实现可以在多个应用程序上执行复杂的计算机任务的AI系统的测试和开发。这代表了[…]新平台迈出的重要一步,有助于评估AI的复杂计算机使用,首先出现在AI新闻中。

来源:AI新闻
视频

视频

    计算机代理Arena是第一个用于计算机使用的交互式评估平台,该平台侧重于多个应用程序。 Excel。 。
  • 计算机代理Arena是第一个用于计算机使用的交互式评估平台,该平台着重于多个应用程序的数据。
  • 该平台基于OSWorld,这是世界上第一个用于多模式代理的可扩展计算机环境。
  • 用户可以通过在同一任务上测试不同的AI模型的性能。
  • 该系统支持不同的操作系统和应用程序,例如Windows,Google Chrome和Excel。
  • 计算机代理是可以在不持续监视的情况下自动执行任务的软件。
  • 当前的AI模型(例如GPT4和Claude)仍然很难安全有效地作为计算机助手。
  • 平台为下一代AI代理的开发提供了测试床。
  • 由Xlang Lab开发的计算机代理Arena是一个开放评估平台,比较基于LLM/VLM的AI代理商的基于计算机的数据。

    计算机代理竞技场

    什么是计算机代理竞技场?

    计算机代理Arena是由滑铁卢大学,香港大学,Salesforce Research和Carnegie Mellon University的研究人员开发的平台。这种创新的系统是一种广泛的测试环境,在执行复杂的计算机任务时,可以评估和改进AI代理。

    测试环境OS(例如Windows和Linux)。

    artha.xlang.ai