强化学习(RL)是人工智能的子域,模型通过与环境的互动学习 - 在野火的背景下也越来越多地使用。与其他传统的统计方法和计算机视觉结合(Ganapathi Subramanian&Crowley,2018; Subramanian&Crowley,2017),RL已应用于野火的监视和监测(Altamimi等,2022年,Julian&Kochenderferfer,2019年; Viseras等。在RL方面几乎没有工作的区域是野火撤离。了解野火过程中撤离人口稠密区域的有效方法是这些事件期间的关键安全问题(Kuligowski,2021; McCaffrey等,2017),其他机器学习技术已证明对疏散计划有益(Xu等,2023)。因此,已经完成了在野火疏散场景中更好地建模流量的工作(Intini等,2019; Pel等,2012),基于代理的疏散模拟不仅用于野火,而且还用于其他自然灾害,例如Tsunamis(Beloglazov等人)(Beloglazov等,2016; Wang et al。)。rl先前已被确定为疏散操作的有趣工具(Rempel&Shiell,2023),并已用于模拟电动变电站火灾期间的疏散(Budakova等,2024)。将RL技术应用于野火撤离任务可能会有益。
人类计算机的相互作用(HCI)已经显着发展,但它仍然在很大程度上取决于通过屏幕和手动输入设备的视觉通信。虽然该范式在可预见的未来可能仍然占主导地位,但这项研究表明,现有的用户界面(UI)也可以由大语言模型(LLMS)利用,以与计算机进行交互。通过将视觉模式集成到多模式框架中,LLM可以获得理解和操作UI元素的能力,使它们能够检索信息,运行功能并像人类一样执行各种任务。该框架利用视觉模型将UI组件和信息传达给LLM,然后将其语言理解功能杠杆化来检索信息,并操作键盘和鼠标输入。本文介绍了人类计算机交互的新元素(HCI),称为LLM-Computer交互(LLMCI),该元素将大型语言模型(LLMS)与通过智能代理结合的计算机视觉结合在一起。这些代理处理用户文本命令并使用视觉感知来识别计算机接口的视觉和文本元素。这允许Mul-timodal AI独立执行复杂的任务,并以类似于人类行为的方式导航应用程序。我们提出了一个概念验证框架,该框架说明了代理如何使用LLM和计算机愿景来处理相互元素,完成任务并根据其说明提供支持。这种策略密切模仿人类的互动,并提出了增强HCI实践的前进道路。