从相互作用到影响:通过理解和评估移动UI操作影响

随着生成AI的进步,在创建可以通过操作用户界面(UIS)来管理日常任务的自主代理方面正在越来越多的工作。尽管先前的研究已经研究了AI代理如何导航UI并了解UI结构的机制,但代理商及其自主行为的影响(尤其是那些可能是风险或不可逆的人)的影响不足。在这项工作中,我们研究了AI代理采取的移动UI行动的现实影响和后果。我们首先通过一系列…

来源:Apple机器学习研究

随着生成AI的进步,在创建可以通过操作用户界面(UIS)来管理日常任务的自主代理方面正在越来越多的工作。尽管先前的研究已经研究了AI代理如何导航UI并了解UI结构的机制,但代理商及其自主行为的影响(尤其是那些可能是风险或不可逆的人)的影响不足。在这项工作中,我们研究了AI代理采取的移动UI行动的现实影响和后果。我们首先通过与领域专家的一系列研讨会来开发对移动UI动作的影响的分类法。之后,我们进行了一项数据综合研究,以收集用户认为有影响力的实际移动UI屏幕轨迹和操作数据。然后,我们使用影响类别来注释从现有移动UI导航数据集中重新使用的收集的数据和数据。我们对不同大型语言模型(LLM)和变体的定量评估表明,不同的LLM如何能够理解代理商可能采取的移动UI动作的影响。我们表明,我们的分类法增强了这些LLM的推理能力,以理解移动UI动作的影响,但是我们的发现也揭示了其可靠地对影响更细微或复杂类别的影响类别的能力的显着差距。

    *在Apple†华盛顿大学完成的工作
  • *在Apple
  • †华盛顿大学