人类计算机的相互作用(HCI)已经显着发展,但它仍然在很大程度上取决于通过屏幕和手动输入设备的视觉通信。虽然该范式在可预见的未来可能仍然占主导地位,但这项研究表明,现有的用户界面(UI)也可以由大语言模型(LLMS)利用,以与计算机进行交互。通过将视觉模式集成到多模式框架中,LLM可以获得理解和操作UI元素的能力,使它们能够检索信息,运行功能并像人类一样执行各种任务。该框架利用视觉模型将UI组件和信息传达给LLM,然后将其语言理解功能杠杆化来检索信息,并操作键盘和鼠标输入。本文介绍了人类计算机交互的新元素(HCI),称为LLM-Computer交互(LLMCI),该元素将大型语言模型(LLMS)与通过智能代理结合的计算机视觉结合在一起。这些代理处理用户文本命令并使用视觉感知来识别计算机接口的视觉和文本元素。这允许Mul-timodal AI独立执行复杂的任务,并以类似于人类行为的方式导航应用程序。我们提出了一个概念验证框架,该框架说明了代理如何使用LLM和计算机愿景来处理相互元素,完成任务并根据其说明提供支持。这种策略密切模仿人类的互动,并提出了增强HCI实践的前进道路。
•圣徒。J.,假设。P.,十字架。L.,Távora。 L.,fonseca pinto。 R.,Faria。 S.,“基于最小速率预测指标的光场图像的无损编码”,《视觉通信和图像表示杂志》,54,21-30,2018; https://doi.org/10.1016/j.jvcir.2018.03.003•Gonzalez,M.,M.,Blue,Guzman,Guzman。,Nicolas,M.,Fonseca-Pinto,R.,Trivi,R.,Trivi,M.,Rabal,H. Bioengenieria,22(1),2018年; •Bento,路易斯; fonseca pinto rui; Povoa,Pedro,“在重症监护环境中对自主神经系统的监测”,Rev. 胸罩。 ter。 密集; 29(4),pp。 481-489,2017; http://dx.doi.org/10.5935/0103-507x.20170072。 •圣礼,Joana F。; Ribeiro,Maria J。;罗德里格斯(Rodrigues),瓜里诺(Guarino),玛丽亚(Maria),p。; Fonseca-Pinto,Rui; Conde,S。“颈动脉体育活性的功能废除胰岛素作用和大鼠葡萄糖稳态:内脏脂肪组织和肝脏的关键作用”。 糖尿病学,V。60,n。 1,pp。 158-168,2017; http://dx.doi.org/10.1007/s00125-016-4133-y•JoãoM。Santos; Pedro A. A.假设;路易斯·席尔瓦·克鲁兹(Luis A. Silva Cruz); Fonseca-Pinto,Rui;路易斯·塔沃拉(Távora); Faria,Sergio,“无损标准编码的光场预处理方法的绩效评估”。 ieee comsoc mmtc Communications,v。12,n。 4,pp。 44-49,2017。http://mmc.committees.com.soc.org/files/2015/08/mmmtc_communication_frontier_frontier_july_july_2017 _singlecolumn_v1.pdfL.,Távora。L.,fonseca pinto。R.,Faria。 S.,“基于最小速率预测指标的光场图像的无损编码”,《视觉通信和图像表示杂志》,54,21-30,2018; https://doi.org/10.1016/j.jvcir.2018.03.003•Gonzalez,M.,M.,Blue,Guzman,Guzman。,Nicolas,M.,Fonseca-Pinto,R.,Trivi,R.,Trivi,M.,Rabal,H. Bioengenieria,22(1),2018年; •Bento,路易斯; fonseca pinto rui; Povoa,Pedro,“在重症监护环境中对自主神经系统的监测”,Rev. 胸罩。 ter。 密集; 29(4),pp。 481-489,2017; http://dx.doi.org/10.5935/0103-507x.20170072。 •圣礼,Joana F。; Ribeiro,Maria J。;罗德里格斯(Rodrigues),瓜里诺(Guarino),玛丽亚(Maria),p。; Fonseca-Pinto,Rui; Conde,S。“颈动脉体育活性的功能废除胰岛素作用和大鼠葡萄糖稳态:内脏脂肪组织和肝脏的关键作用”。 糖尿病学,V。60,n。 1,pp。 158-168,2017; http://dx.doi.org/10.1007/s00125-016-4133-y•JoãoM。Santos; Pedro A. A.假设;路易斯·席尔瓦·克鲁兹(Luis A. Silva Cruz); Fonseca-Pinto,Rui;路易斯·塔沃拉(Távora); Faria,Sergio,“无损标准编码的光场预处理方法的绩效评估”。 ieee comsoc mmtc Communications,v。12,n。 4,pp。 44-49,2017。http://mmc.committees.com.soc.org/files/2015/08/mmmtc_communication_frontier_frontier_july_july_2017 _singlecolumn_v1.pdfR.,Faria。S.,“基于最小速率预测指标的光场图像的无损编码”,《视觉通信和图像表示杂志》,54,21-30,2018; https://doi.org/10.1016/j.jvcir.2018.03.003•Gonzalez,M.,M.,Blue,Guzman,Guzman。,Nicolas,M.,Fonseca-Pinto,R.,Trivi,R.,Trivi,M.,Rabal,H. Bioengenieria,22(1),2018年; •Bento,路易斯; fonseca pinto rui; Povoa,Pedro,“在重症监护环境中对自主神经系统的监测”,Rev.胸罩。ter。密集; 29(4),pp。481-489,2017; http://dx.doi.org/10.5935/0103-507x.20170072。•圣礼,Joana F。; Ribeiro,Maria J。;罗德里格斯(Rodrigues),瓜里诺(Guarino),玛丽亚(Maria),p。; Fonseca-Pinto,Rui; Conde,S。“颈动脉体育活性的功能废除胰岛素作用和大鼠葡萄糖稳态:内脏脂肪组织和肝脏的关键作用”。糖尿病学,V。60,n。 1,pp。158-168,2017; http://dx.doi.org/10.1007/s00125-016-4133-y•JoãoM。Santos; Pedro A.A.假设;路易斯·席尔瓦·克鲁兹(Luis A. Silva Cruz); Fonseca-Pinto,Rui;路易斯·塔沃拉(Távora); Faria,Sergio,“无损标准编码的光场预处理方法的绩效评估”。ieee comsoc mmtc Communications,v。12,n。 4,pp。44-49,2017。http://mmc.committees.com.soc.org/files/2015/08/mmmtc_communication_frontier_frontier_july_july_2017 _singlecolumn_v1.pdf
更不用说性能提高了,人类和机器人队友必须通过共同的心理模型同步计划[19]。为了实现这一目标,需要有效的代理之间的有效沟通。一种我们利用的一种技术是增强现实(AR)可视化的技术,该技术已经在多个机器人域中进行了辩护[4,16,21],包括我们自己自己自己表明AR能够促进台式台式操作环境中平稳的人类机器人协调能力的作品[12]和共享仓库[12]和仓库[5]。AR具有将数据直接投射到环境上的独特能力。此原位可视化为人类和机器人提供了共享的环境环境,从而实现了紧凑的视觉通信,而无需上下文切换到单独的屏幕[8,10]。我们还从可解释的AI中汲取灵感,这不仅是为了提高对不透明学习模式的理解[1,9],而且还促进了团队流利性并提高人类机器人任务中的共同认识[2,3,18]。在我们的工作中,我们使用算法支持的AR可视化和自然语言措施,作为将人类整合到多机构增强学习(RL)计划中所需的沟通桥梁,通过利用每个代理商的独特技能来解决多代理强化学习(RL)。本摘要描述了解决两个研究问题的工作:Q1。在不确定性下执行任务以提高团队绩效时,机器人应该如何与人类交流?和Q2。机器人如何向人类队友证明他们的决策和指导是为了提高信任和合规性的合理性?
(i) 基于数据进行训练;(ii) 使用文本、音频或视觉通信与人互动;(iii) 生成类似于人类创建的输出的非脚本输出,但无需或仅需有限的人工监督。(b)“许可证”是指州授予个人从事特定职业的授权:(i) 基于个人符合州法律规定的个人资格;(ii) 州法律要求获得授权后,个人才可以合法从事该职业并获得报酬。(c)“受监管职业”是指由商务部监管的职业,要求个人获得许可证或州认证才能从事该职业。(d)“州认证”是指州授予个人使用“州认证”一词作为从事特定职业的指定头衔的一部分的授权:(i) 基于个人符合州法律规定的个人资格;以及 (ii) 州法律禁止未经认证的人员使用“州认证”一词作为指定头衔的一部分,但没有禁止未经认证的人员从事有偿职业。 (2) 生成人工智能:(a) 做出违规陈述;(b) 实施违规行为;或 (c) 被用于进一步实施违规行为,这不能成为违反第 13-2-1 节所述该部门管理和执行的任何法规的辩护理由。 (3) 使用、提示或以其他方式导致生成人工智能与某人互动,与第 13-2-1 节所述该部门管理和执行的任何行为有关的人,应在被要求或提示的情况下,向与生成人工智能互动的人清楚、显眼地披露,该人正在与生成人工智能互动,而不是与人类互动。 (4)