摘要。AI研究界的基本任务之一是建立一个自主体现的代理,该代理可以在各种各样的任务中实现高级绩效。但是,为所有开放式任务获取或手动设计奖励是不现实的。在本文中,我们提出了一种新颖的跨模式对比学习框架 - 夹子4MC,旨在学习加强学习(RL)友好的视觉语言模型(VLM),该模型(VLM)充当开放式任务的无限奖励功能。仅利用视频片段和语言提示之间的模拟性不友好,因为标准VLMS只能在粗级上捕获相似性。为了实现RL友好性,我们将任务完成学位纳入了VLM培训目标,因为这些信息可以根据区分不同状态之间的重要性。此外,我们根据MinedoJo提供的大规模YouTube数据库提供整洁的YouTube数据集。具体来说,两轮过滤操作保证数据集涵盖了足够的基本信息,并且视频文本对高度相关。经验,我们证明了所提出的方法与基准相比,在RL任务上可以更好地进行性能。代码和数据集可在https://github.com/pku-rl/clip4mc上找到。
摘要:视觉语言动作(VLA)模型的最新进展可以使机器人根据语言或基于目标的说明执行广泛的任务。这些VLA模型通常将文本和图像编码为脱节令牌,从而生成与给定指令保持一致的动作。这要求VLA模型同时执行视觉语言理解和精确的闭环控制,从而给他们带来重大挑战,以使其概括为新环境。然而,对比的预训练的VLM,例如剪辑,已经具有视觉对齐能力,这些功能被当前的VLA模型未被充分利用。在本文中,我们提出了早期的Fusion VLA(EF-VLA),这是一种新颖的VLA架构,通过执行早期融合来利用Clip的视觉理解,在传递到变压器政策之前,提取与任务指导相关的细粒度视力语言令牌。ef-vla保持VLM冷冻,允许其有效执行看不见的任务而无需进行精细调整,这通常会降低概括能力。仿真和现实世界实验表明,EF-VLA在不同任务上的最先进的VLA模型优于最先进的VLA模型,并且在看不见的环境中具有重要的概括能力。
摘要。尽管大规模预处理的视觉模型(VLM)尤其是在各种开放式播放任务中的剪辑,但它们在语义细分中的应用仍然具有挑战性,从而产生了带有错误分段区域的嘈杂分段图。在本文中,我们仔细地重新调查了剪辑的架构,并将残留连接确定为降低质量质量的噪声的主要来源。通过对剩余连接中统计特性的比较分析和不同训练的模型的注意力输出,我们发现剪辑的图像文本对比训练范式强调了全局特征,以牺牲局部歧视,从而导致嘈杂的分割结果。在响应中,我们提出了一种新型方法,该方法是分解剪辑的表示形式以增强开放式语义语义分割的。我们对最后一层介绍了三个简单的修改:删除剩余连接,实现自我关注并丢弃馈送前进的网络。ClearClip始终生成更清晰,更准确的绘制图,并在多个基准测试中胜过现有的方法,从而确认了我们发现的重要性。
摘要。尽管大规模预处理的视觉模型(VLM)尤其是在各种开放式播放任务中的剪辑,但它们在语义细分中的应用仍然具有挑战性,从而产生了带有错误分段区域的嘈杂分段图。在本文中,我们仔细地重新调查了剪辑的架构,并将残留连接确定为降低质量质量的噪声的主要来源。通过对剩余连接中统计特性的比较分析和不同训练的模型的注意力输出,我们发现剪辑的图像文本对比训练范式强调了全局特征,以牺牲局部歧视,从而导致嘈杂的分割结果。在响应中,我们提出了一种新型方法,该方法是分解剪辑的表示形式以增强开放式语义语义分割的。我们对最后一层介绍了三个简单的修改:删除剩余连接,实现自我关注并丢弃馈送前进的网络。ClearClip始终生成更清晰,更准确的绘制图,并在多个基准测试中胜过现有的方法,从而确认了我们发现的重要性。
首选经验:实验室高度重视具有以下一项或多种经验的候选人: - 以人为本的应用:熟悉性在医疗保健,教育,神经企业和/或辅助技术等领域应用ML。生理信号处理的先前经验(例如EMG,EEG,ECG)是一个优势。熟悉HCI原理和框架,特别是在进行可用性研究和设计以用户为中心的AI系统的经验。- 辅助 /协作机器人技术:对开发用于康复,辅助技术或神经疾病的机器人系统的兴趣,利用机器学习来提高用户交互中的精度和适应性。了解在共享工作空间中部署机器人的知识,重点是人类机器人团队的安全,合作和效率。- 多模式ML:使用不同数据类型的经验,例如视觉,语音,图像和生理信号。将多种模式集成以构建强大的AI系统的经验是一个优势 - 跨学科应用程序:利用LLM / VLM用于跨学科问题,例如:AI驱动的科学发现,自动化假设在金融 /自然科学 /物理科学中自动化假设,增强了复杂组织设置中的协作协作。
本研究旨在全面审查和经验评估多模式大语模型(MLLM)和大型视觉模型(VLM)在运输系统的对象检测中的应用。在第一个折叠中,我们提供了有关MLLM在运输应用中的潜在好处的背景,并在先前的研究中对当前的MLLM技术进行了全面审查。我们强调了它们在各种运输方案中对象检测中的有效性和局限性。第二倍涉及在运输应用程序和未来方向中概述端到端对象检测的概述。在此基础上,我们提出了对三个现实世界传输问题测试MLLM的经验分析,其中包括对象检测任务,即道路安全属性提取,安全至关重要的事件检测和热图像的视觉推理。我们的发现提供了对MLLM性能的详细评估,揭示了优势和改进领域。最后,我们讨论了MLLM在增强运输中对象检测方面的实际限制和挑战,从而为该关键领域的未来研究和发展提供了路线图。
可负担性引导的加固学习通过视觉提示2023年5月至2024年6月,斯坦福人工智能实验室(IRIS LAB)。由Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn网站,纸张•实施方法利用视觉语言模型(VLMS)为在线增强学习定义密集的奖励。•开发了用于从VLM中提取负担能力表示的管道,以在图像空间中生成密集的路线轨迹。•在桥接数据上进行了预定的策略,对寡妇机器人的实施数量适中的示范进行了审核。通过耳朵播放它:通过视听模仿学习在2021年3月 - 2022年6月的斯坦福人人工智能实验室(IRIS实验室)中学习技巧。由苏拉吉·奈尔(Suraj Nair),切尔西·芬恩(Chelsea Finn)网站,纸张•实施的多模式模仿学习对视觉,音频和记忆的学习,以促进部分观察到的任务。•与Mujoco,Robosuite和Pytorch开发了行为克隆算法,用于在Franka-Emika Panda机器人上实施。•建立的管道以通过专家示范和在线征服人类干预措施来离线训练政策。COURSEWORK Graduate Computer Science : CS 168 Modern Algorithms, CS 205L Mathematical Machine Learning Methods, CS 224N Natural Language Processing, CS 229 Machine Learning, CS 231N Computer Vision, CS 326 Advanced Robotic Manipulation, CS 330 Deep Multi- task & Meta-Learning, CS 422 Interactive & Embodied Learning, OSPOXFRD 196Q Graph Representation Learning (Oxford Study Abroad)本科计算机科学:CS 103离散数学,CS 107计算机组织与系统,CS 109概率,CS 110计算机系统原理,CS 157计算逻辑,CS 161算法分析,CS 221人工智能数学原理:人工智能数学:51 MATHICE CALLIAD CALLIVER CALCAL CALCAL CALCAL CALLUS CALCAL CLATIVER CALLUL 52 CALLUL 52 CALLUL 52基理论,数学101数学发现实验室:概率理论和马尔可夫过程,数学151概率理论(自学),Phil 150数学逻辑,Phil 151 Metalogic,Phil 152可计算理论理论哲学:Phil 20N AI哲学:Phil 186 Mind哲学,Symsys Mindys 202 Invisorys of Invisorness of Semsys of Semsys of Seysy of Seensy of 205 Iccophens of 207 Cepply of Secipy of Seciphens of 207 Compection,207 OSPOXFRD 199A心理哲学(牛津学习国外)心理学与语言学:心理140心理语言学,心理240A好奇心人工智能中的好奇心,语言学家130A语义与务实语言学,语言学家150社会语言学,CS 384在伦理和语言处理中的cs 384 eminar和社会问题
执行视觉和语言导航(VLN)的能力已成为现代机器人系统中的基础组成部分。使用VLN,一个机器人有望根据语言说明[1-6]在没有提供的地图的情况下在看不见的环境周围导航。这不仅为人类提供了更好的相互作用,而且还通过语言加强了跨场所的概括。在本文中,我们通过腿部机器人(例如四倍或人形生物)进一步扩展了VLN的研究。使用腿而不是轮子可以使机器人在更具挑战性和混乱的场景中导航。如图1,我们的机器人可以在狭窄的人行道上浏览一个凌乱的实验室空间,从房屋中的房间过渡到房间,以及解决户外挑战性的环境,例如带有小岩石,孔和槽的不均匀地形。要将语言转换为动作,机器人需要对输入语言进行推理,并执行闭环计划以及低级控制。随着大语言模型(LLM)和视觉模型(VLM)的最新进展,已经开发了几个端到端视觉语言动作(VLA)系统[7-9]。这些系统对具有大规模的机器人操纵演示的通用Propose VLM微调,以产生低级动作。虽然在单个模型中统一推理和执行令人着迷,并且表现出令人鼓舞的结果,但值得深入研究以下问题:是否有更好的方法来代表量化的低级命令以外的动作?毕竟,LLM和VLM主要接受了自然语言的培训。当我们需要将推理转换为精确的非语言行动时,统一推理和执行变得具有挑战性。受到VLM [10,11]的最新进展的启发,我们提出了纳维拉(Navila)的提议,这是一个针对腿部机器人VLN的两个级别框架:VLM的两级框架,可以很好地输出中级动作(VLA),以“右转30度”的策略,以及训练的范围,以“转向30度”。VLA的中级动作输出无需低级命令传达位置和方向信息。该框架的优点是三个方面:(i)通过将低级执行与VLA分解,可以通过交换低级策略来在不同的机器人上应用相同的VLA; (ii)将动作表示为中级语言指令,可以通过不同的数据源进行VLA培训,包括真实的人类视频和推理质量检查任务。这可以增强推理功能,而不会过度拟合特定的低级命令,并可以利用现实世界数据进行概括; (iii)Navila在两个不同的时间尺度上运行:VLA通常是一个大型且计算密集的模型,以较低的频率运行,提供高级导航命令;运动策略实时运行。这种双频方法允许
摘要 - 本文介绍了Robodexvlm,这是一个用于机器人任务计划的创新框架,并掌握了配备灵敏手的协作操纵器的检测。以前的方法着眼于简化且有限的操纵任务,这些任务通常忽略了以长期培训方式抓住各种对象相关的复杂性。相比之下,我们提出的框架利用灵巧的手能够抓住不同形状和大小的对象,同时根据自然语言命令执行任务。所提出的方法具有以下核心组件:首先,设计了一个具有任务级恢复机制的稳健任务计划器,该机制设计了视觉语言模型(VLMS),这使系统能够解释和执行长序列任务。第二,基于机器人运动学和正式方法提出了语言引导的灵活掌握感知算法,该方法是针对带有多种物体和命令的零摄像的灵巧操作量身定制的。全面的实验结果验证了Robodexvlm在处理长层场景和执行灵巧抓握方面的有效性,适应性和鲁棒性。这些结果突出了该框架在复杂环境中运行的能力,展示了其进行开放式灵巧操作的潜力。我们的开源项目页面可以在https://henryhcliu.github.io/robodexvlm上找到。
生成AI(Genai)系统使用户能够快速生成高质量的内容。大语模型(LLM)的最新进展(Radford等人,2019年; Chowdhery等。,2022;布朗等人。,2020年; Touvron等。,2023; Bubeck等。,2023; Schulman等。,2022; Openai,2023年;拟人化,2023年),视觉语言模型(VLMS)(Radford等人,2021;刘等。,2023a; Driess等。,2023;团队,2023年)和扩散模型(Ramesh等人,2021; Song等。,2020年;杨等。,2023年)彻底改变了Genai的能力。开放的Web应用程序安全项目(OWASP)已编制了对LLM应用程序的十大漏洞和威胁的详细列表(Owasp,2023)。Genai模型旨在了解和生成具有超过传统机器学习系统的自主权,提供新颖的能力来理解视觉场景,生成文本,代码,图像以及与人类和互联网服务互动的新型功能。此功能可以实现更广泛的应用程序,并以这种方式引入了这些新型Genai集成应用所特有的新安全挑战。在本文中,我们讨论了该领域的挑战和机遇,从本节开始,从安全风险开始,包括Genai模型如何成为攻击的目标,一个无意中损害安全性的“傻瓜”,或者是坏演员攻击他人的工具。