尽管已知大脑中的阅读和聆听之间存在差异,但最近的研究表明,基于文本的语言模型可以非常准确地预测文本和语音引起的大脑活动。这就提出了一个问题:语言模型真正能预测大脑中哪些类型的信息。我们通过一种直接的方法来研究这个问题,即我们系统地从语言模型表示中删除特定的低级刺激特征(文本、语音和视觉),以评估它们对阅读和聆听过程中与 fMRI 大脑记录的对齐的影响。将这些结果与基于语音的语言模型进行比较,可以发现低级特征对大脑对齐的截然不同的影响。虽然基于文本的模型在删除特征后显示出早期感觉区域的对齐降低,但它们在晚期语言区域仍保留了显著的预测能力。相比之下,基于语音的模型即使在删除特征后也能在早期听觉区域保持很强的对齐,但在晚期语言区域失去了所有的预测能力。这些结果表明,基于语音的模型可以深入了解早期听觉区域处理的附加信息,但在使用它们模拟晚期语言区域的处理时需要谨慎。我们将代码公开。1
Cheraghian 等人 [ 21 – 23 ] 在零样本 3 维模型分类方 面提出了 3 维点云的零样本学习方法、缓解 3 维零样 本学习中枢纽点问题的方法和基于直推式零样本学 习的 3 维点云分类方法,并将它们封装进一个全新 的零样本 3 维点云方法 [ 24 ] 中。以上方法均是利用已 知类样本的点云表征及其词向量对未知类别进行分 类,开创了零样本 3 维模型分类方法。近年来, CLIP 在零样本图像分类上取得了良好的效果,因此有研 究者将 CLIP 应用到零样本 3 维模型分类方法中, Zhang 等人 [ 25 ] 提出了基于 CLIP 的 3 维点云理解 (Point cloud understanding by CLIP, PointCLIP) 模型, PointCLIP 首先将 3 维点云投影成多个深度图,然 后利用 CLIP 的预训练图像编码器提取深度图特 征,同时将类别名称通过 CLIP 预先训练的文本编 码器提取文本特征。但是 PointCLIP 的性能受到深 度图和图像之间的域差异以及深度分布的多样性限 制。为了解决这一问题,基于图像 - 深度图预训练 CLIP 的点云分类方法 (transfer CLIP to Point cloud classification with image-depth pre-training, CLIP2Point) [ 26 ] 将跨模态学习与模态内学习相结合 训练了一个深度图编码器。在分类时,冻结 CLIP 的图像编码器,使用深度图编码器提取深度图特 征,该方法缓解了深度图和图像间的模型差异。用 于 3 维理解的图像 - 文本 - 点云一致性表征学习方法 (learning Unified representation of Language, Im- age and Point cloud for 3D understanding, ULIP) [ 27 ] 构建了一个图像、文本和点云 3 种模态的 统一嵌入空间,该方法利用大规模图像 - 文本对预 训练的视觉语言模型,并将 3 维点云编码器的特征 空间与预先对齐的视觉 - 文本特征空间对齐,大幅 提高了 3 维模型的识别能力。与之相似的是,基于 提示文本微调的 3 维识别方法 (CLIP Goes 3D, CG3D) [ 28 ] 同样使用 3 元组形式确保同一类别的 3 维模 型特征和图像特征之间以及 3 维模型特征和文本特 征之间存在相似性,从而使点云编码器获得零样本 识别的能力。另外, PointCLIP V2 [ 29 ] 在 Point- CLIP 的基础之上,通过利用更先进的投影算法和 更详细的 3 维模型描述,显着提高了零样本 3 维模型 分类准确率。本文采用语义增强 CLIP 解决图像和文 本的语义鸿沟问题,通过在语义层面为图像和文本 提供更多相似的语义信息,使图像和文本对齐更具有 一致性,从而有效提高 3 维模型的零样本分类性能。 2.2 提示工程
几乎没有射击学习(FSL)旨在鉴于有限的培训样本,旨在识别新的猫。核心挑战是避免过度适应最小数据,同时确保对新课程的良好概括。一种主流方法采用视觉特征提取器的原始类型作为分类器的重量,并且性能取决于原型的质量。由于不同的类别可能具有相似的视觉特征,因此视觉影响具有局限性。这是因为现有方法仅在预训练阶段学习一个简单的视觉特征,但忽略了完善的特征空间对原型的重要性。我们介绍了语义范围的视觉原型框架(SEVPRO)来解决此问题。sevpro从预训练阶段中学到了原型,并用作所有基于原型FSL方法的ver-Satile插入式框架。具体来说,我们通过将语义嵌入到视觉空间中,以相似的视觉特征为有助于分类类别来增强实质性的可区分性。对于新颖的课堂学习,我们利用基础类别的知识,并结合语义信息以进一步提升原型质量。同时,对FSL基准和ABLATIM研究的实验实验证明了我们对FSL的影响的优越性。
通过学习表达表达,深度学习(DL)彻底改变了自主驾驶(AD)。尽管取得了重大进步,但DL模型的继承性不透明产生了公众的信任,阻碍了他们广泛采用的采用。为了表现出可行的自主驾驶,当前的研究主要专注于从现场提取特征,以预测驾驶动作及其响应解释。然而,这些方法不足以在动作和解释(这项工作中称为类别)中实现语义和相关性信息,从而导致了次优的性能。为了解决这个问题,我们提出了语义引导的动态相关性学习(SGDCL),这是一种新颖的方法,可以利用语义丰富性和动态相互作用与类别的内在性。sgdcl启用语义引导的学习模块,以获取特定于类别的表示和动态相关学习模块,以适应类别之间的复杂相关性。另外,我们引入了一个创新的损失术语,以利用类别的细粒度同时统计来进行精制正则化。我们可以在两个完善的基准上进行广泛评估SGDCL,这表明了它优于七个最先进的基线和一个大型视觉模型。SGDCL可显着促进可解释的自主驾驶,最多15个。3%的绩效提高和可解释的关注分数,增强了公众对AD的信任。
摘要:SLAM是一种至关重要的技术,用于实现无人车辆的自主导航和定位。传统的视觉同时本地化和映射算法建立在静态场景的假设上,从而忽略了动态目标在现实世界环境中的影响。来自动态目标的干扰可以显着降低系统的定位精度,甚至导致跟踪故障。为了解决这些问题,我们提出了一个名为S-Slam的动态视觉大满贯系统,该系统基于“同样和语义信息提取”。最初,引入了词汇描述符来描述定向的快速特征点,从而提高了特征点匹配的精度和速度。随后,fasternet替换了Yolov8的骨干网络以加快语义信息提取。通过使用DBSCAN聚类对象检测的结果,获得了更精致的语义掩码。最后,通过利用语义面膜和表现约束,可以辨别和消除动态特征点,从而仅利用仅利用静态特征点进行姿势估计,并构建了不包括动态目标的密集3D地图。在TUM RGB-D数据集和现实世界情景上进行了实验评估,并证明了拟议算法在滤除场景中的动态目标方面的有效性。与Orb-Slam3相比,TUM RGB-D数据集的本地化准确性提高了95.53%。针对经典动态大满贯系统的比较分析进一步证实了通过lam的定位准确性,地图可读性和鲁棒性的提高。
摘要。尽管LiDAR语义分割迅速发展,但最先进的方法通常融合了源自机械旋转激光雷的基准的专门设计的诱导偏差。这可以将模型的通用性限制在其他类型的LiDAR技术中,并使超参数调整更加复杂。为了解决这些问题,我们提出了一个广义框架,以通过我们稀疏的焦点调制来代替窗户注意力来适应市场中普遍存在的各种各样的发光剂。我们的SFPNET能够阐述多层上下文,并使用栅极机制动态聚集它们。通过实现渠道信息查询,编码包含本地和全局上下文的功能。我们还引入了一种新型的大型混合溶质激光雷达语义segmentation数据集,用于机器人应用。sfpnet表现出对源自机械旋转激光雷达的常规基准测试的竞争性能,同时在从固态激光拉尔的基准上实现最新结果。此外,它在我们的新型数据集中的现有方法胜过来自混合固体激光雷达的新型数据集。代码和数据集可从https://github.com/cavendish518/sfpnet和https://www.semanticindustry.top获得。
摘要。传统的图像介绍任务旨在通过引用周围背景和前景来恢复所破裂的区域。但是,需求不断增长的对象擦除任务旨在消除对象并产生和谐的背景。以前的基于GAN的涂料方法与复杂的纹理产生斗争。基于新兴扩散模型的算法(例如稳定的扩散插图)具有产生新内容的能力,但它们通常会在擦除的物体的位置产生不一致的结果,并且需要高质量的文本提示输入。为了应对这些挑战,我们引入了魔术师,这是一个针对对象擦除任务量身定制的基于扩散模型的框架。它由两个阶段组成:内容初始化和可控生成。在后阶段,我们开发了两个插件模块,称为及时调整和语义意识到的注意力。此外,我们提出了一种数据构建策略,该策略生成了特别适合此任务的培训数据。Magiceraser在减轻不希望的伪像的同时,可以很好地控制内容产生。实验结果突出了我们在对象擦除任务中的有价值的进步。
摘要 - 本文解决了在复杂且未知环境中自动机器人检查的问题。即使面对感知不确定性和对环境的先验知识,这种能力对于各种现实世界中的有效和精确检查至关重要。现有的实际自主检查方法典型地依赖于预定义的目标和路点,并且通常无法适应动态或未知设置。在本文中,我们介绍了语义信念行为图(SB2G)框架,作为一种新的语义意识自主机器人检查的方法。sb2g使用行为节点为机器人生成控制策略,该行为节点封装了设计用于检查不同类别对象的各种基于语义的策略。我们设计了一种主动的语义搜索行为,以指导机器人定位对象进行检查,同时降低语义信息不确定性。SB2G中的边缘编码这些行为之间的过渡。我们使用腿部机器人平台通过模拟和现实世界的城市检查来验证我们的方法。我们的结果表明,SB2G实现了更有效的检查政策,表现出与人类经营的检查相当的性能。
可以从不同的刺激方式中访问我们大脑中存储的语义知识。例如,猫的图片和“猫”一词都具有相似的概念表示。现有研究发现了与模态无关表示的证据,但其内容仍然未知。独立于模式的表示可能是语义,或者它们也可能包含感知特征。我们开发了一种新颖的方法,该方法将单词/图片跨条件解码与神经网络分类器结合在一起,该方法从MEG数据(25名人类参与者,15名女性,10名男性)中学到了潜在的独立表示的表示。然后,我们将这些表示形式与代表语义,感觉和拼字法特征的模型进行了比较。结果表明,与模式无关的表示与语义和视觉表示相关。没有证据表明这些结果是由于图片特征的视觉特征或拼字特征自动激活了实验中提出的刺激。这些发现支持了与模态无关的概念包含感知和语义表示的观念。
摘要。尽管近年来有多项研究通过非侵入性技术对大脑活动中的语音解码进行了研究,但这项任务仍然是一项挑战,因为解码质量仍然不足以满足实际应用。有效的解决方案可以帮助脑机接口 (BCI) 的发展,有可能使患有言语障碍的人恢复交流。同时,这些研究可以为大脑如何处理语音和声音提供根本性的见解。解码感知语音的方法之一是使用经过对比学习训练的自监督模型。该模型以零样本方式将脑磁图 (MEG) 中相同长度的片段与音频进行匹配。我们通过结合基于 CNN Transformer 的新架构改进了解码感知语音的方法。由于提出的修改,感知语音解码的准确率从目前的 69% 显着提高到 83%,从 67% 提高到 70%(在公开可用的数据集上)。值得注意的是,准确率的最大提升体现在较长的、带有语义的语音片段中,而不是较短的、带有声音和音素的语音片段中。我们的代码可在 https://github.com/maryjis/MEGformer/ 上找到