直到最近,研究人员主要对阅读中的人类行为数据感兴趣,以了解人类认知。然而,这些人类语言处理信号也可以用于基于机器学习的自然语言处理任务。目前,将脑电图大脑活动用于此目的的研究还很大程度上尚未得到探索。在本文中,我们首次进行了大规模研究,系统地分析了脑电图大脑活动数据在改进自然语言处理任务方面的潜力,特别关注了信号的哪些特征最有益。我们提出了一种多模态机器学习架构,它可以从文本输入和脑电图特征中联合学习。我们发现将脑电图信号过滤到频带中比使用宽带信号更有益。此外,对于一系列词嵌入类型,脑电图数据可以改进二元和三元情绪分类,并且优于多个基线。对于关系检测等更复杂的任务,在我们的实验中,只有情境化的 BERT 嵌入优于基线,这提出了进一步研究的需要。最后,当训练数据有限时,EEG 数据显示出特别有前景。
海洋生物膜是全球无处不在的表面相关微生物群落,由于其独特的结构和功能,引起了人们的关注。The aim of this study is to provide a comprehensive overview of the current scienti fi c understanding, with a speci fi c focus on naturally occurring bio fi lms that develop on diverse marine abiotic surfaces, including microplastics, sea fl oor sediments, subsurface particles, and submerged arti fi cial structures susceptible to biocorrosion and biofouling induced by marine bio fi LMS。本文介绍了有关海洋环境中这些表面相关微生物群落的多样性,结构,功能和动态的最新进展和发现,突出了它们的生态和生物地球化学维度,同时也是为了进一步研究海洋生物生物LMS的灵感。
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速
精确的地理空间植被预测具有各个部门的潜力,包括农业,林业,植物援助和碳会计。为了利用卫星图像的广泛可用性来完成此任务,各种作品应用了深层神经网络,以预测具有逼真质量的多光谱图像。但是,尚未彻底探索植被动力学的重要领域。我们的研究介绍了Greenearthnet,这是第一个专门为高分辨率植被预测设计的数据集,以及ContextFormer,这是一种新颖的深度学习方法,可预测Sentinel 2卫星2卫星图像,并在整个Eu-Rope之间进行精细分辨率。我们的多模式变压器模型上下文形式通过视觉主链利用空间上下文,并以参数有效的方式预测局部上下文贴片上包含气象时间序列的时间动态。Greenearthnet数据集具有学习的云蒙版和适当的植被建模评估方案。它还与现有的卫星图像预测数据集SEARNET2021保持兼容性,从而实现了跨数据库模型比较。我们广泛的定性和定量分析表明,我们的方法的表现优于广泛的基线技术。这包括超越了SEARNET2021上的先前最先进的模型,以及时间序列预测和视频预测的改编模型。我们提供开源代码和预训练的权重,以根据https:// gith ub.com/vitusbenson/greenearthnet [10]重新产生我们的实验结果。据我们所知,这项工作为大陆规模植被建模的第一个模拟介绍了良好的分辨,能够在季节性周期以外捕获异常,从而为对气候变化和极端的响应铺平了预测植被健康和行为的道路。
a 瑞士苏黎世大学心理学系可塑性研究方法 b 瑞士苏黎世大学和苏黎世联邦理工学院苏黎世神经科学中心 (ZNZ) c 瑞士苏黎世大学大学研究优先计划“健康老龄化动力学” d 法国帕莱索巴黎萨克雷大学、Inria、CEA e 德国莱比锡马克斯普朗克人类认知和脑科学研究所神经病学系 f 加拿大魁北克省蒙特利尔蒙特利尔大学老年医学研究所功能神经影像科 g 美国德克萨斯州奥斯汀德克萨斯大学戴尔医学院计算神经影像实验室 h 美国密歇根州底特律韦恩州立大学老年学研究所和心理学系 i 加拿大蒙特利尔康考迪亚大学心理学系 j 大脑与运动研究所认知神经解剖学实验室épinière,法国巴黎 k 德克萨斯大学心理学系,美国德克萨斯州奥斯汀
决策算法在社会中的存在感如今正在迅速增加,同时人们也开始担心其透明度以及这些算法可能成为新的歧视来源。事实上,许多相关的自动化系统已被证明会根据敏感信息做出决策或歧视某些社会群体(例如,某些用于人员识别的生物特征识别系统)。为了研究当前基于异构信息源的多模态算法如何受到数据中的敏感元素和内部偏见的影响,我们提出了一个虚构的自动招聘测试平台:FairCVtest。我们使用一组有意识地以性别和种族偏见进行评分的多模态合成档案来训练自动招聘算法。FairCVtest 展示了此类招聘工具背后的人工智能(AI)从非结构化数据中提取敏感信息并以不良(不公平)的方式将其与数据偏见结合起来的能力。最后,我们列出了最近开发能够从深度学习架构的决策过程中删除敏感信息的技术的列表。我们使用其中一种算法(SensitiveNets)来实验歧视感知学习,以消除我们多模态 AI 框架中的敏感信息。我们的方法和结果展示了如何生成更公平的基于 AI 的工具,特别是更公平的自动招聘系统。
视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
许多现有的运动预测方法都依赖于符号感知输出来生成代理轨迹,例如边界框,路图信息和traf-fight。这种符号表示是现实世界的高级表现,它可能会使运动预测模型容易受到感知错误的影响(例如,在检测开放式录音障碍时失败),而缺少场景中的显着信息(例如,糟糕的道路条件)。另一种范式是从原始传感器中端到端学习。但是,这种方法缺乏解释性,需要大量的培训资源。在这项工作中,我们提出将视觉世界的标记化为一组紧凑的场景元素,然后利用预先训练的图像基础模型和LiDAR神经网络以开放式播音方式进行编码所有场景元素。图像基础模型使我们的场景令牌可以编码开放世界的一般知识,而LiDAR神经网络编码几何信息。我们提出的表示形式可以有效地用几百个令牌编码多帧多模式观察,并且与大多数基于变压器的体系结构兼容。为了评估我们的方法,我们使用了带有凸轮嵌入的Waymo开放运动数据集。通过Waymo开放运动数据集进行的实验表明,我们的方法会导致对最先进的表现的显着改善。
在班级学习(CIL)方案中,由于阶级的偏见对当前任务的偏见引起的灾难性遗忘者长期以来一直引起了重大挑战。它主要由判别模型的特征引起。随着生成性多模式模型的日益普及,我们将探索用CIL生成的歧视模型代替歧视模型。,从歧视到生成模式过渡需要解决两个关键挑战。主要挑战在于将生成的文本信息转移到不同类别的分类中。在方面,它需要在生成框架内制定CIL的任务。为此,我们提出了一种新颖的生成性多模式模型(GMM)框架,用于类增量学习。我们的方法直接使用改编的生成模型为图像生成Labels。获得详细的文本后,我们使用文本编码器来阐述文本特征,并采用匹配的功能来确定最相似的标签与分类的标签。在传统的CIL设置中,我们在长期序列的任务方案中取得了更好的影响。under少数CIL设置,与所有当前最新方法相比,我们的精度至少提高了14%,而遗忘的遗忘明显较小。我们的代码可在https://github.com/doubleclass/gmm上找到。
超分辨率医学图像可帮助医生提供更准确的诊断。在许多情况下,计算机断层扫描 (CT) 或磁共振成像 (MRI) 技术在一次检查期间会捕获多个扫描 (模式),这些扫描 (模式) 可以联合使用 (以多模态方式) 来进一步提高超分辨率结果的质量。为此,我们提出了一种新颖的多模态多头卷积注意模块来超分辨率 CT 和 MRI 扫描。我们的注意模块使用卷积运算对多个连接的输入张量执行联合空间通道注意,其中核 (感受野) 大小控制空间注意的减少率,卷积滤波器的数量控制通道注意的减少率。我们引入了多个注意头,每个头具有不同的感受野大小,对应于空间注意的特定减少率。我们将多模态多头卷积注意力 (MMHCA) 集成到两个深度神经架构中以实现超分辨率,并对三个数据集进行了实验。我们的实证结果表明,我们的注意力模块优于超分辨率中使用的最先进的注意力机制。此外,我们进行了一项消融研究,以评估注意力模块中涉及的组件的影响,例如输入的数量或头部的数量。我们的代码可在 https://github.com/lilygeorgescu/MHCA 免费获取。