我们为不依赖于人类反馈的大型语言模型(LLMS)提出了一种新颖的增强学习(RL)框架。相反,我们的方法使用模型本身中的交叉注意信号来获得自我监督的奖励,从而指导对模型策略的迭代微调。通过分析模型在生成过程中如何“参加”输入提示,我们构建了及时的覆盖,重点和连贯性的度量。然后,我们使用这些措施来对候选响应进行排名或评分,提供了奖励信号,鼓励模型产生良好的一致,主题文本。在与标准策略梯度方法的经验比较和合成偏好模型的RL微调中,我们的方法在非RL基线的迅速相关性和一致性方面显示出显着的提高。虽然它尚未与完全监督的RLHF系统的性能相匹配,但它突出了使用最小的人类标记来扩展对齐的重要方向。我们提供了详细的分析,讨论潜在的局限性,并概述了将基于跨注意的信号与较少人类反馈相结合的未来工作。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
自动驾驶汽车的未来在于以人为中心的设计和先进的AI Capabilies。未来的自动驾驶汽车不仅会跨乘客,而且还将互动并适应他们的欲望,从而使旅程变得舒适,有效且令人愉悦。在本文中,我们提出了一个新颖的框架,该框架利用大型语言模型(LLMS)来增强自动驾驶汽车的决策过程。通过整合LLMS的自然语言能力和上下文理解,专业工具使用,协同推理,并与自动驾驶汽车的各种模块进行作用,该框架旨在将LLMS的先进语言和推理能力无缝整合到自动驾驶中。拟议的框架具有革新自动驾驶汽车运行方式,提供个性化援助,持续学习和透明决策的潜力,最终为更安全,更有效的自动驾驶技术做出了贡献。
将驾驶行为适应新的环境,库斯和法律是自主驾驶中的一个长期问题,排除了澳大利亚车辆(AVS)的广泛部署。在本文中,我们提出了LLADA,这是一种简单而强大的工具,它使人类驾驶员和自动驾驶汽车都可以通过调整其任务和动作计划来在新的地方进行访问规则,从而在任何地方开车。llada通过利用大型语言模型(LLMS)在解释本地驾驶员手册中的流量规则方面的令人印象深刻的零弹性可推广性来实现这一目标。通过广泛的用户研究,我们表明LLADA的说明可用于消除野外野外未受的情况。我们还展示了LLADA在现实世界数据集中适应AV运动计划策略的能力; Llada优于我们所有指标的基线计划。请查看我们的网站以获取更多详细信息:Llada。
在过去的十年中,言语和语言技术已经看到了前所未有的“成功”。在既定基准中衡量的广泛应用的性能显然稳步增长。许多工具通过在消费者和商业计算中的集成而广泛采用,语音和语言技术已成为围绕“人工智能”的兴趣(和炒作)的焦点。结果,研究人员长期以来以某种形式知道的技术,例如自动语音识别(ASR),语音综合(TTS)和(大型)语言模型(LLMS)在新颖的社会环境中被解释(和开发)。上下文中的这些变化,而不是(仅)技术本身,提出了许多埃斯特,技术和法律问题,例如:
摘要在线第二语言教学近年来蓬勃发展,在技术能力和COVID-19大流行导致的教学方式的强迫变化的帮助下。这种转变强调了互动在在线教育学中的关键作用。研究表明,增加学生与讲师之间互动的机会增加对于培养第二语言获取(SLA)至关重要。但是,很少有研究量化在线语言教学中的不同类型的相互作用的产生,尤其是在经验丰富的讲师中。本研究利用互动主义框架对在线西班牙语课程中的互动进行定量分析,并根据互动启动类型进行分类:指导者提出的参与(IPP),未提出的口头参与(UOP),未提及的文本参与(UTP),即聊天(即,聊天的时间段)(即,均一次的范围)(即及时的范围),并在展示范围(ever),并在展示范围(即及格)。这些转弯)。数据包括在英国一所远程学习大学中跨越熟练的LEV ELS和课程类型的同步L2西班牙语教学的视频记录。课程类型包括语法研讨会和考试准备。结果表明,在线语言课程中的互动模式受熟练程度和课程类型的影响。较低的熟练度学生更频繁地从事互动程序,而参与扩展话语的能力取决于Spe cific活动/课程类型。这项研究有助于解决除英语(Lote)以外的LAN Guages的互动和语言教学研究的缺乏。
培训大语言模型(LLM)已成为人工智能进展的核心,数据集,培训前和训练后方法在其性能和可扩展性方面扮演着互补的角色。此博士学位课程探讨了训练这些模型的关键阶段,并强调了数据对下游任务中模型性能的影响。学生将通过全面研究数据集构建,优化技术,缩放定律,培训前策略,合成数据生成以及培训后的改进(例如,进行微调和对齐方式),通过全面的研究构建LLM的理论和实践。该课程将结合理论指导与动手实验相结合。学生将洞悉:##创建高质量,多样化和有效数据集的原则和方法。##¢优化策略,用于大规模模型培训,包括计算效率。##经验缩放定律及其对模型大小和数据集大小的影响。#¢利用合成数据及其在改善概括和鲁棒性中的作用。##训练技术,例如人类反馈(RLHF)的增强学习以及与期望的结果结合。
人类语言最引人注目的特征之一是它们的极端变化。更加惊人的是,在统治其形式和功能的强烈代表性和认知规律的明显变化背后的存在:语言普遍性。我们在这里讨论我们小组的一些最新工作,其中大规模,数据密集型计算建模技术用于解决有关语言规律性的基本语言问题。在单词顺序区域中,我们在此处报告工作,这些工作利用大量单语和平行语料库数据来开发名词短语(通用20)和一般结构最小化原则的内部结构的计算模型。在事件持续时间的领域,我们报告的工作利用了深厚的相似性和表面差异来开发真正的跨语言自然语言处理工具。
Qi Huang 1 Yangrui Chen 1 Zhi Zhang 1 Yanghua Peng 1 Xiang Li 1 Cong Xie 1 Shibiao Nong 1 Yulu Jia 1 Sun He 1 Hongmin Chen 1 Zhihao Bai 1 Qi Hou 1 Shipeng Yan 1 Ding Zhou 1 Yiyao Sheng 1 Zhuo Jiang 1 Haohan Xu 1 Haoran Wei 1 Zhang Zhang 1 Pengfei Nie 1 Leqi Zou 1 Sida Zhao 1 Liang Xiang 1 Zherui Liu 1 Zhe Li 1 Xiaoying Jia 1 Jianxi Ye 1 Xin Jin 2 , Xin Liu 1
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速