人类计算机的相互作用(HCI)已经显着发展,但它仍然在很大程度上取决于通过屏幕和手动输入设备的视觉通信。虽然该范式在可预见的未来可能仍然占主导地位,但这项研究表明,现有的用户界面(UI)也可以由大语言模型(LLMS)利用,以与计算机进行交互。通过将视觉模式集成到多模式框架中,LLM可以获得理解和操作UI元素的能力,使它们能够检索信息,运行功能并像人类一样执行各种任务。该框架利用视觉模型将UI组件和信息传达给LLM,然后将其语言理解功能杠杆化来检索信息,并操作键盘和鼠标输入。本文介绍了人类计算机交互的新元素(HCI),称为LLM-Computer交互(LLMCI),该元素将大型语言模型(LLMS)与通过智能代理结合的计算机视觉结合在一起。这些代理处理用户文本命令并使用视觉感知来识别计算机接口的视觉和文本元素。这允许Mul-timodal AI独立执行复杂的任务,并以类似于人类行为的方式导航应用程序。我们提出了一个概念验证框架,该框架说明了代理如何使用LLM和计算机愿景来处理相互元素,完成任务并根据其说明提供支持。这种策略密切模仿人类的互动,并提出了增强HCI实践的前进道路。
主要关键词