多模式的

2024-09-02 机构名称:

arxiv：2406.06978v4 [CS.CV] 2024年8月30日

端到端的自主驾驶涉及学习具有原始传感器输入的神经计划者，被认为是实现完全自治的承诺方向。尽管在该领域取得了令人鼓舞的进展[11，12]，但最近的研究[4，8，14]已经暴露了多个漏洞和模仿学习方法的局限性（IL）方法，尤其是开环评估中固有的问题，例如功能失调的指标和隐式偏见[8，14]。这至关重要，因为它无法保证安全，效率，舒适性和遵守交通规则。为了解决这一主要局限性，几项作品提出了合并闭环指标，通过确保机器学习的计划者符合基本标准，这些封闭环指标更有效地评估了端到端的自主驾驶，而不仅仅是模仿人类驾驶员。因此，端到端计划是理想情况下的多目标和多模式的任务，其中多目标计划涉及符合开环和闭环设置的各种评估指标。在这种情况下，多模式指示每个度量的多个最佳解决方案。现有的端到端方法[4，11，12]经常尝试

查看详细

File

2025-02-27 机构名称:

脑部计算机界面中的注意机制

随着深度学习的快速发展，注意机制在脑电图（EEG）信号分析中变得必不可少，从而显着增强了大脑计算机界面（BCI）应用。本文对传统和变压器的注意机制，其嵌入策略及其在基于EEG的BCI中的应用进行了全面综述，并特别强调了多模式数据融合。通过捕获跨时间，频率和空间通道的脑电图变化，注意机制可改善特征提取，表示学习和模型鲁棒性。这些方法可以广泛地分为传统的注意机制，该机制通常与卷积和经常性网络集成，以及基于变压器的多头自我注意力，在捕获长期依赖性方面表现出色。除了单模式分析之外，注意机制还增强了多模式的脑电图应用，从而促进了脑电图与其他生理或感觉数据之间的有效融合。最后，我们讨论了基于注意力的脑电图建模中的现有挑战和新兴趋势，并强调了推进BCI技术的未来方向。本综述旨在为寻求利用注意力机制的研究人员提供宝贵的见解，以改善脑电图的解释和应用。

查看详细

File

2024-08-16 机构名称:

由Berry阶段在双层石墨烯谐振器中驱动的可移动山谷开关

近年来，大语言模型（LLM）的整合彻底改变了机器人技术领域，使机器人能够以人类的熟练程度进行交流，理解和理性。本文探讨了LLMS对机器人技术的多方面影响，以应对在各个领域中利用这些模型的关键挑战和机会。通过对核心机器人技术元素（通信，感知，计划和控制）中的LLM应用进行分类和分析，我们旨在为寻求将LLMS集成到其机器人系统中的研究人员提供可行的见解。我们的调查重点是开发了GPT-3.5后的LLM，主要是基于文本的模式，同时还考虑了多模式的感知和控制方法。我们提供了迅速工程的全面指南和示例，从而促进初学者对基于LLM的机器人解决方案的访问。通过教程级别的示例和结构化的及时构建，我们说明了如何将LLM引导的增强无缝集成到机器人技术应用中。这项调查是研究人员在LLM驱动机器人技术的不断发展的景观方面的路线图，为利用语言模型在Robotics开发中的力量提供了全面的概述和实用指南。

查看详细

File

2023-10-04 机构名称:

使用混合特征融合

预测行人的穿越意图是在现实世界中安全驾驶自动驾驶汽车（AV）的重要任务。行人的行为通常会受到交通场景中周围环境的影响。基于基于视觉的神经网络的最新作品从图像中提取关键信息以执行预测。但是，在驾驶环境中，存在许多关键信息，例如驱动区域中的社交和场景互动，自我汽车和目标行人之间的位置和距离以及所有目标的运动。如何正确探索和利用上述隐式相互作用将促进自动驾驶汽车的发展。在本章中，两个新颖的属性，行人在道路或人行道上的位置，以及从目标行人到自我卡车的相对距离，这些距离源自语义图和深度图与边界框的相对距离。提出了基于多模式的混合预测网络，以捕获所有特征与预测行人交叉意图之间的相互作用。通过两个公共行人穿越数据集评估PIE和JAAD，拟议的混合框架的表现优于最先进的精度3％。关键字：行人交叉，特征融合

查看详细

File

2023-07-20 机构名称:

在准现实的场景中解码心理努力

摘要：人类的表现因精神资源而有所不同，这些精神资源可成功地追求一项任务。为了监视用户在自然主义方案中的当前认知资源，不仅要衡量任务本身引起的需求，而且要考虑情况和环境影响。我们对18名参与者进行了多模式研究（9名女性，M = 25.9，SD = 3.8岁）。在这项研究中，我们使用功能性近红外光谱（FNIRS）记录了呼吸道，眼部，心脏和大脑活动，而参与者则以同时的情感语音分散注意力进行了军舰指挥官任务的适应性版本。我们测试了通过多模式的机器学习体系结构解码经验丰富的精神努力的可行性。该体系结构包括特征工程，模型优化和模型选择，以结合跨主题分类中的多模式测量。我们的方法减少了对锻炼的可能性，并可靠地区分了两种不同级别的心理努力。这些发现有助于预测不同的心理努力状态，并为在现实应用中跨个体跨个体监测铺平了道路。

查看详细

File

2021-07-25 机构名称:

分类器的地图集 - 用于大脑MRI分割的机器学习范式

摘要我们介绍了分类器（AOC）的地图集，这是一个概念上新颖的脑MRI分割框架。AOC是从标记的数据中学到的素数逻辑回归（LR）函数的体素逻辑回归（LR）函数的空间图。收敛后，所得的固定LR权重，每个体素的几个代表训练数据集。因此，它可以被视为一种轻量级学习机器，尽管其容量较低并不削弱问题。AOC结构独立于测试图像的实际强度，提供了在可用标记的数据上训练它的灵活性，并将其用于分割来自不同数据集和模式的图像。从这个意义上讲，它也不会过分贴上培训数据。该提出的方法已应用于众多可公开可用的数据集，用于分割脑MRI组织，并被证明对噪声和外展具有鲁棒性。也获得了多模式的跨模式MRI分割的有希望的结果。最后，我们展示了如何利用对健康受试者的大脑MRI训练的AOC来用于对多发性硬化症患者的病变分割。

查看详细

File

2025-02-09 机构名称:

用于脑部疾病分类和预测的机器学习：最新进展和即将到来的挑战

综述目的。机器学习 (ML) 是一种人工智能技术，允许计算机执行任务而无需明确编程。ML 可用于辅助诊断和预后脑部疾病。虽然最早的论文可以追溯到十多年前，但研究增长速度非常快。最新发现。最近使用 ML 进行诊断的研究已经从对特定疾病与对照的分类转变为鉴别诊断。大量研究致力于预测未来的患者状态。虽然许多早期研究都集中在神经影像作为数据源，但目前的趋势是多模式的整合。在目标疾病方面，痴呆症仍然占主导地位，但已经开发出针对各种神经和精神疾病的方法。总结。ML 在辅助诊断和预后脑部疾病方面非常有前景。尽管如此，我们认为，社区在将这些工具纳入临床常规方面仍有关键挑战需要解决：需要更广泛地采用有关验证和可重复研究的良好实践；需要广泛的泛化研究；需要可解释的模型来克服黑箱方法的局限性。关键词：人工智能；机器学习；转化研究；分类；预测重点

查看详细

File

2024-06-11 机构名称:

lidpose：稀疏激光点云中实时3D人姿势估计，具有非重复循环扫描模式

摘要：在本文中，我们提出了一种基于新型的，视觉转化器的端到端姿势估计方法，Lidpose，用于实时人类骨架估计，在非重复循环扫描（NRCS）LIDAR点云中。在vitpose架构上建造，我们介绍了新颖的改编，以解决NRCS激光雷达的独特特性，即稀疏性和异常的类似Rosetta的扫描模式。所提出的方法解决了基于NRCS激光雷达的感知的常见问题，即测量的稀疏性，它需要在记录数据的空间和时间分辨率之间保持平衡，以有效地分析各种现象。lidpose利用NRCS激光雷达传感器的前景和背景细分技术来选择感兴趣的区域（ROI），使下痛成为移动行人检测和从RAW NRCS LIDAR LIDAR LIDAR测量序列中移动的端到端方法，该方法由静态传感器捕获的静态传感器供Sureveellance Seasarions捕获。为了评估该方法，我们创建了一个新颖的，真实的，多模式的数据集，其中包含来自Livox Avia传感器的相机图像和LIDAR点云，并带有注释的2D和3D人体骨架地面真相。

查看详细

File

2025-02-17 机构名称:

DMF：基于多模式融合的深层网络流量分类模型

摘要：随着加密流量的兴起，传统的网络分析方法变得越来越有效，导致转向基于深度学习的方法。其中，基于多模式的基于学习的分类方法由于能够利用加密流量的各种功能集而提高了分类准确性，因此引起了人们的关注。但是，现有的研究主要依赖于晚期融合技术，这阻碍了数据中深度特征的全面利用。为了解决此限制，我们提出了一种新型的多模式加密流量分类模型，该模型将模态融合与多尺度特征提取同步。具体来说，我们的方法在特征提取的每个阶段进行实时融合方式，在每个级别上增强特征表示，并保留层间相关性，以实现更有效的学习。这种连续的融合策略提高了模型检测加密流量中细微变化的能力，同时促进其鲁棒性和对不断发展网络条件的适应性。对两个现实世界加密的流量数据集的实验结果表明，我们的方法达到的分类精度为98.23％和97.63％，表现优于现有的基于多模式学习的方法。

查看详细

File

2025-02-26 机构名称:

与认知计算建立人类智能机器团队的多模式合作的人为因素的方法：评论

摘要。在Horizon 2020资助Clean Sky 2计划中，组合项目的认知协作旨在将路线图定位为单飞行器（SPO）和人类智能机器组合。建立在人为因素的现状之上，仔细检查要考虑组成人类智能机器团队（HIMT）的因素和参数。每个参数都会影响积极或负线。一个好的Himt是一个传达，共享知识，信息，合作和信任的HIMT，以确保最高水平的飞行安全。本评论显示了HIMT中双向交流的多模式的附加值。多模式将允许在两个方向上保持口头和非语言交流。对在不同条件下的每种方式和互动方式的好处进行了审查，以及每种方式如何相互补充，以获得自然，高效和可靠的更好的双向交流。目的是以清晰，准确和简洁的方式传输信息，但也要确保接收者受到好评（即cccteammate和驾驶员）和良好的理解。每种模式都将允许Ccteammate根据上下文和手头任务以最佳方式呈现和/或表示信息。

查看详细

XiaoMi-AI文件搜索系统

多模式的

arxiv：2406.06978v4 [CS.CV] 2024年8月30日

脑部计算机界面中的注意机制

由Berry阶段在双层石墨烯谐振器中驱动的可移动山谷开关

使用混合特征融合

在准现实的场景中解码心理努力

分类器的地图集 - 用于大脑MRI分割的机器学习范式

用于脑部疾病分类和预测的机器学习：最新进展和即将到来的挑战

lidpose：稀疏激光点云中实时3D人姿势估计，具有非重复循环扫描模式

DMF：基于多模式融合的深层网络流量分类模型

与认知计算建立人类智能机器团队的多模式合作的人为因素的方法：评论

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI