语言是多模式,包含语音和手势。手势是一种丰富日常交流的视觉语言形式。尽管手势与语音同时发生,但它们经常传达独特的信息,特别是关于视觉空间描述和行动(Aribali,2005; Feyereisen&Havard,1999; Hostetter&Alibali,2019; Melinger&Levelt,2004)。手势有意义地描绘了视觉世界的各个方面(例如,物体的大小,形状或运动)称为标志性手势(McNeill,1992)。语音和手势在语义和时间上都是相关的;然而,标志性手势的发作经常在语音中进行语义上的影响(Fritz,Kita,Littlemore和Krott,2021; Morrel-Samuels&Krauss,1992; Ter Bekke,Drijvers,&Holler,&Holler,&Holler,2020)。词汇效果是与手势含义最紧密相关的单词。例如,在句子中,“他拿起这本书”,搭配举起的手势,“捡起”将被视为词汇效果。在对话数据的语料库中,人们发现,手势运动的开始是在词汇范围前发生的672毫秒,并且手势运动的有意义的中风开始发生215毫秒之前,发生在词汇效果之前(Ter Bekke等人,2020年)。为了理解语音传语信号,听众必须在多模式语言处理过程中整合语音和姿态的时间和语义特征。许多研究都使用眼神跟踪来检查语言处理,因为语音信号实时展开。但是,对多模式处理的研究受到了较少的关注。使用改编的视觉世界范式,我们研究了听众如何使用手势中的信息来解决语音中的临时参考歧义。至关重要的是,我们还检查了中度重度创伤性脑损伤(TBI)的个体是否会破坏这一过程,从而促进了我们对认知沟通障碍对丰富多模式交流环境中语音障碍对言语传语整合的影响的理解。
通过分析以自我为中心的视频的分析,抽象理解人类行动是智能代理人的理想能力,并且是一个最近越来越受欢迎的研究领域。到目前为止,大多数以自我为中心的(视频)动作识别(EAR)的方法,即,根据预定义的自然语言描述(动作)对给定的视频剪辑进行分类的任务,代表目标动作类(标签)使用一个hot编码,从而忽略了某些动作之间的任何关系或相似性。这项工作的目标是通过利用预先训练的语言模型中编码的先前存在的知识来增强视觉模型的概括能力。具体来说,我们提出了一个语言知识蒸馏框架,以将预训练的语言模型对动作(文本中表达)的知识(在文本中表达)提高到视觉模型。我们不使用标签的单热编码表示,而是将所有动作类别(由语言模型构成)的概率分布作为教学信号。我们的实验表明,我们的框架根据Epic-Kitchens,Something of Something V2等基准获得了EAR的性能和泛化能力。
摘要。寻求完全自动驾驶汽车(AV),能够以人类的理解和响应能力来浏览复杂的现实情况。在本文中,我们介绍了海豚,这是一种新颖的视觉语言模型,以吸收人类的能力,成为一名自治驾驶助手。海豚擅长处理包括视频(或图像)数据,文本指令和历史控制信号的多模式输入,以生成与提供指令相对应的知情输出。在开源的视觉模型(OpenFlamingo)构建基础上,我们首先通过一般领域中创新的基础思维链(GCOT)过程来增强海豚的推理能力。然后,我们通过构建特定的指令数据并进行指导调整来将海豚定制到驾驶领域。通过BDD-X数据集的利用,我们将四个不同的AV任务设计为海豚,以促进对复杂驾驶场景的整体理解。因此,海豚的独特特征被描述为两个维度:(1)能够对复杂且长尾巴的开放世界驾驶场景和解决AV任务的范围进行全面理解,以及(2)通过反置式学习和错误恢复,包括无梯度的即时概述。该匿名演示可在https://vlm-driver.github.io/上获得。
同理心在许多社会交往中至关重要,包括人类机器人,患者医生,教师学生和客户呼叫中心的范围。尽管其重要性,但由于主观性质,视频中的同理心仍然是一项具有挑战性的任务,而且通常仍然没有探索。现有的研究取决于文本,音频或仅视频设置中的脚本或半脚本相互作用,这些相互作用未能捕获现实生活相互作用的复杂性和细微差别。该博士搜索旨在通过开发一种多模式模型(MMLM)来填补这些空白,该模型(MMLM)检测有视听数据中的同理心。为了利用现有数据集,该研究涉及收集现实生活中的行动视频和音频。这项研究将利用诸如神经档位搜索之类的优化技术,以提供优化的小型MMLM。该项目的成功实施对增强社交互动的质量具有重要意义,因为它可以实时衡量同理心,因此为培训提供了潜在的途径,以更好地互动。