详细内容或原文请订阅后点击阅览
多代理团队阻碍专家
多代理 LLM 系统越来越多地部署为自主协作者,其中代理可以自由交互,而不是执行固定的、预先指定的工作流程。在这种情况下,有效的协调无法提前完全设计,而必须通过互动来实现。然而,大多数先前的工作都是通过固定的角色、工作流程或聚合规则来强制协调,从而留下了一个问题:当协调不受限制时,自组织团队的表现如何。借鉴组织心理学,我们研究自组织法学硕士团队是否能实现强大的协同作用,其中......
来源:Apple机器学习研究多代理 LLM 系统越来越多地部署为自主协作者,其中代理可以自由交互,而不是执行固定的、预先指定的工作流程。在这种情况下,有效的协调无法提前完全设计,而必须通过互动来实现。然而,大多数先前的工作都是通过固定的角色、工作流程或聚合规则来强制协调,从而留下了一个问题:当协调不受限制时,自组织团队的表现如何。借鉴组织心理学,我们研究自组织法学硕士团队是否能够实现强大的协同作用,即团队绩效匹配或超过最佳个人成员。在受人类启发的前沿 ML 基准测试中,我们发现,与人类团队不同,LLM 团队始终无法匹配其专家代理的性能,即使明确告知专家是谁,在 ML 基准测试中造成高达 41.1% 的性能损失。分解这一失败后,我们发现专家的利用,而不是识别,是主要的瓶颈。对话分析揭示了一种综合妥协的趋势——平均专家和非专家的观点,而不是适当权衡专业知识——这种趋势随着团队规模的扩大而增加,并与绩效呈负相关。有趣的是,这种寻求共识的行为提高了对抗代理的鲁棒性,表明在一致性和有效的专业知识利用之间进行权衡。我们的研究结果揭示了自组织多智能体团队利用其成员集体专业知识的能力存在显着差距。
