自动驾驶汽车的未来在于以人为中心的设计和先进的AI Capabilies。未来的自动驾驶汽车不仅会跨乘客,而且还将互动并适应他们的欲望,从而使旅程变得舒适,有效且令人愉悦。在本文中,我们提出了一个新颖的框架,该框架利用大型语言模型(LLMS)来增强自动驾驶汽车的决策过程。通过整合LLMS的自然语言能力和上下文理解,专业工具使用,协同推理,并与自动驾驶汽车的各种模块进行作用,该框架旨在将LLMS的先进语言和推理能力无缝整合到自动驾驶中。拟议的框架具有革新自动驾驶汽车运行方式,提供个性化援助,持续学习和透明决策的潜力,最终为更安全,更有效的自动驾驶技术做出了贡献。
Robert D. Fish(R.Fish@imperial.ac.uk)隶属于杜勒尔保护与生态研究所,位于肯特大学,英国坎特伯雷,英国坎特伯雷和英国伦敦帝国学院的环境政策中心,在英国伦敦,英国,英国伦敦。 Gail E. Austen,Jacob W. Bentley,Jessica C. Fisher,Phoebe R. Bentley和Zoe G. Davies(Z.G.Davies@kent.ac.uk)隶属于迪尔雷尔保护与生态研究所,位于肯特大学,位于肯特大学,位于肯特大学的英国坎特伯里大学,在英国,英国,英国国王。 马丁·达利默(Martin Dallimer)隶属于可持续发展研究所,地球与环境学院,利兹大学,英国利兹大学,英国,英国和环境政策中心,伦敦帝国学院,英国伦敦伦敦帝国学院。 Katherine N. Irvine隶属于英国苏格兰阿伯丁市詹姆斯·赫顿学院的社会,经济和地理科学系。 Maximilian Nawrath隶属于肯特大学的杜雷尔保护与生态研究所,英国坎特伯雷,英国坎特伯雷,挪威奥斯陆的挪威水研究所。Robert D. Fish(R.Fish@imperial.ac.uk)隶属于杜勒尔保护与生态研究所,位于肯特大学,英国坎特伯雷,英国坎特伯雷和英国伦敦帝国学院的环境政策中心,在英国伦敦,英国,英国伦敦。Gail E. Austen,Jacob W. Bentley,Jessica C. Fisher,Phoebe R. Bentley和Zoe G. Davies(Z.G.Davies@kent.ac.uk)隶属于迪尔雷尔保护与生态研究所,位于肯特大学,位于肯特大学,位于肯特大学的英国坎特伯里大学,在英国,英国,英国国王。马丁·达利默(Martin Dallimer)隶属于可持续发展研究所,地球与环境学院,利兹大学,英国利兹大学,英国,英国和环境政策中心,伦敦帝国学院,英国伦敦伦敦帝国学院。Katherine N. Irvine隶属于英国苏格兰阿伯丁市詹姆斯·赫顿学院的社会,经济和地理科学系。Maximilian Nawrath隶属于肯特大学的杜雷尔保护与生态研究所,英国坎特伯雷,英国坎特伯雷,挪威奥斯陆的挪威水研究所。
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速
学习建模字符串之间的关系的学习是什么教授大型语言模型(LLMS)关于Vi-Sual世界的?我们系统地评估了LLMS生成和识别出增加复杂性的各种视觉概念的能力,然后演示如何使用文本模型来培训预先的视觉表示学习系统。由于语言模型缺乏将视觉信息作为像素消耗或输出视觉信息的能力,因此我们使用代码来表示研究中的图像。尽管LLM生成的图像看起来不像自然图像,但图像产生的结果以及模型校正这些固定图像的能力表明,字符串的精确建模可以教授有关Vi-Sual World的许多方面的语言模型。此外,使用文本模型生成的图像进行了自我监督的视觉表示学习的实验,突出了能够训练能够使用LLMS对自然IM的语义评估进行训练视觉模型的潜力。
图像包含大量冗余信息,使其具有挑战性地在大规模上从它们中有效地了解它们。最近的工作通过在视觉语言构想学习期间掩盖图像贴片来解决这个问题[15,33,36,70]。一种简单的方法是随机放下大部分斑块,通过降低每个训练迭代中的计算成本和记忆使用量,从而更有效地培训训练[36]。替代策略是掩盖语义相关的贴片[15,33,70],例如属于同一对象的贴片。这迫使学习的模型预测从上下文中描述缺少场景结构的单词,从而改善了学识渊博的表示。但是,这种方法需要一种单独的机制来将语义重新贴定的补丁分组在一起,这为学习过程增加了相当大的复杂性,并且计算上很昂贵。我们提出了一种简单的掩盖策略,用于避免这些缺点的多模式对比学习。在训练期间,我们掩盖了斑块的随机簇(图1)。对于此聚类,我们将Patches的原始RGB值用作特征表示。我们的方法利用了一个事实,即视觉相似性的简单度量通常可以限制相干的视觉结构,例如对象部分[18,53],
将驾驶行为适应新的环境,库斯和法律是自主驾驶中的一个长期问题,排除了澳大利亚车辆(AVS)的广泛部署。在本文中,我们提出了LLADA,这是一种简单而强大的工具,它使人类驾驶员和自动驾驶汽车都可以通过调整其任务和动作计划来在新的地方进行访问规则,从而在任何地方开车。llada通过利用大型语言模型(LLMS)在解释本地驾驶员手册中的流量规则方面的令人印象深刻的零弹性可推广性来实现这一目标。通过广泛的用户研究,我们表明LLADA的说明可用于消除野外野外未受的情况。我们还展示了LLADA在现实世界数据集中适应AV运动计划策略的能力; Llada优于我们所有指标的基线计划。请查看我们的网站以获取更多详细信息:Llada。
我们利用大型语言模型(LLM)进行零射击语义视听导航(SAVN)。现有的方法利用广泛的培训演示来巩固执行学习,但达到了相对较低的成功率和缺乏可普遍性。Auditary信号的间歇性质进一步构成了其他障碍,以减少目标信息。为了应对这一挑战,我们提出了Reflyception and I Maginative L Anguage A Gent(Rila)。通过采用多模式来处理SENSORY数据,我们指示基于LLM的规划师积极地展示环境。在探索过程中,我们的代理人对不准确的感知描述进行了适应性评估和驳回。此外,我们引入了辅助LLM的助手,以通过映射房间的布局并提供战略见解来增强全球环境综合。通过全面的实验和分析,我们表明我们的方法在没有环境和互补语义信息的培训演示的情况下优于相关的基线。
