当AIS讨价还价时,一个不太先进的代理商可能会花费您

构建越来越大的AI模型的竞赛正在放慢速度。该行业的重点是转向代理商 - 可以自主行动,做出决定并代表用户进行谈判的系统。但是,如果客户和卖方都使用AI代理,会发生什么?最近的一项研究使代理商与代理谈判进行了测试和…

来源:MIT Technology Review _人工智能

这项研究是越来越多的研究警告的一部分,该警告关于将AI代理在现实世界中的财务决策中的风险。本月初,来自多个大学的一群研究人员认为,LLM代理人应主要根据其风险概况进行评估,而不仅仅是其高峰绩效。他们说,当前的基准强调了准确性和基于返回的指标,这些指标衡量了代理商在最佳状态下的表现,但忽略了它的安全性如何。他们的研究还发现,即使是表现最佳的模型也更有可能在对抗条件下分解。

认为

团队建议,在现实世界中的财务状况中,一个微弱的弱点(甚至是1%的失败率)可能会使系统面临系统性风险。他们建议在将AI代理“压力测试”之前进行实际使用。

汉昌曹(Hancheng Cao)指出,价格谈判研究有局限性。 CAO说:“实验是在模拟环境中进行的,这些环境可能无法完全捕获现实世界谈判或用户行为的复杂性。”

研究人员说,研究人员和行业从业人员正在尝试各种降低这些风险的策略。其中包括完善给予AI代理的提示,使代理商能够使用外部工具或代码来做出更好的决策,协调多个模型以仔细检查彼此的工作,以及针对特定领域的财务数据进行微调模型,所有这些模型都显示出在提高绩效方面的希望。

目前,许多著名的AI购物工具仅限于产品建议。例如,在4月,亚马逊推出了“为我购买”,这是一家AI代理商,如果亚马逊不直接出售它们,可以帮助客户从其他品牌网站找到和购买产品。

推出了“为我买”, 麻省理工学院技术评论

校正:我们删除了有关代理部署的线路