摘要。多模式图像的使用通常可以改善分段。但是,由于临床限制,完整的多模式数据集通常不可用。为了解决这个问题,我们提出了一个新颖的mul-timodal分割框架,该框架可通过使用利益区域(ROI)细心的模态完成,可以使缺少模态固定。我们使用ROI专注的跳过连接专注于与分割相关的收件,以及结合肿瘤ROI的关注点和分割概率图的关节歧视者,以学习与分割与分割相关的共享潜在表示。我们的方法在脑部分割挑战数据集中得到了285例,该数据集的全部肿瘤,肿瘤核心和增强肿瘤的三个区域。它也是在缺血性卒中病变分割挑战数据集上的带有28例梗塞病变的阀门。我们的方法在强大的多模式分割中优于最先进的方法,分别为三种类型的脑肿瘤区域的平均骰子分别为84.15%,75.59%和54.90%,中风病变的平均骰子为48.29%。我们的方法可以改善需要多模式图像的临床工作流程。
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
无缝的人类机器人相互作用(HRI)需要机器人对人类的多模式输入的熟练处理,包括语音,凝视和面部表情,以准确评估人类的影响并相应地提供帮助。同时,机器人必须通过多模态输出渠道清楚地将自己的意图清楚地传达给人类,包括语音,手势和凝视。传统上,在机器人系统中实现此功能通常需要复杂的设计。在意图估计的领域中,以前的研究通常合并意图识别模块,以基于多模式输入[3,17]对人类意图进行分类。一些系统还具有用于检测人类情感状态的专用模块,对于建立社会细微差别的互动至关重要[10,16,18]。但是,这些方法的缺点在于它们耗时且昂贵的培训过程。在输出方面,许多先前的系统集成了情绪状态[8,11]模块,以控制人形输出提示,例如音调,凝视或面部表情,增强了向人类反馈的透明度和生动性。关于运动产生,提出了多种方法,包括预先建立的运动集的混合和图表[19,25],以及使用运动捕获数据[5,9,15]。值得注意的是,这涉及与特定状态相关的每种输出模式的动作手动设计。通过利用文本理解,推理和计划的能力,在短时间内提出了许多机器人应用[7,12,14,20,21,28]。例如,Zhang等人。大型语言模型(LLM)的最新进展,诸如聊天机器人,数据过程和代码生成之类的域中的表现令人印象深刻的功能正在揭示其在机器人技术领域的潜在应用。其中一个通常的例子是“ Saycan”机器人[1],它能够解释人的自然语言命令,分析环境并生成具体的可执行操作序列,以通过使用LLMS来满足人类的要求。但是,机器人和人之间的互动提示仅限于语音命令,即使没有语音输出。最近,一些研究人员还试图将这种技术应用于HRI领域。利用LLM来估计人类有多少信任机器人[30]; Yoshida等人,使用LLMS生成低级控制命令来推动人形机器人运动以进行社会表达[29],而不是用于实践援助。Baermann等人,部署了LLM不仅遵循人类的言语命令,而且还通过人类的自然语言反馈来纠正其错误[2]。然而,通信主要依赖语音相互作用,而较少关注多模式感应和表达能力。ye等。[27]驱动了一个LLM驱动的机器人系统,该系统能够与人类在VR环境中的组装任务中合作。,但是该系统仅限于处理人类语言输入并控制虚拟空间中的单臂。通常,与快速
直到最近,研究人员主要对阅读中的人类行为数据感兴趣,以了解人类认知。然而,这些人类语言处理信号也可以用于基于机器学习的自然语言处理任务。目前,将脑电图大脑活动用于此目的的研究还很大程度上尚未得到探索。在本文中,我们首次进行了大规模研究,系统地分析了脑电图大脑活动数据在改进自然语言处理任务方面的潜力,特别关注了信号的哪些特征最有益。我们提出了一种多模态机器学习架构,它可以从文本输入和脑电图特征中联合学习。我们发现将脑电图信号过滤到频带中比使用宽带信号更有益。此外,对于一系列词嵌入类型,脑电图数据可以改进二元和三元情绪分类,并且优于多个基线。对于关系检测等更复杂的任务,在我们的实验中,只有情境化的 BERT 嵌入优于基线,这提出了进一步研究的需要。最后,当训练数据有限时,EEG 数据显示出特别有前景。
幻觉是对多模态大语言模型(MLLM)的普遍挑战的幻觉,极大地阻碍了他们需要精确判断的真实用法。现有方法可以通过特定设计的数据进行培训,或通过其他来源的特定知识来缓解此问题,从而产生了不可避免的额外费用。在本文中,我们提出了一种新型的MLLM解码方法,该方法基于o-vertust pe nalty和r eTroptoction-llocation策略,它是一种几乎免费的午餐,可以减轻幻觉问题,并没有其他数据,知识,知识或培训。我们的方法始于一个有趣的观察结果,即,大多数幻觉与自我注意力矩阵所表现出的知识聚集作用紧密相关,即MLLM倾向于通过关注一些摘要的代价来产生新的代币,但并非所有以前的代币。这种部分过度信任的倾向会导致忽略图像令牌,并用幻觉描述图像内容。基于观察结果,Opera在梁搜索解码过程中引入了对模型逻辑的惩罚术语,以使Miti-Gate the Trust问题以及回滚策略回顾了在预先生成的令牌中存在摘要令牌的存在,并在必要必要时重新分配给标记。通过广泛的实验,Opera在不同的MLLM和指标上表现出明显的幻觉降低性能,证明其有效性和性质。我们的代码为:https://github.com/shikiw/opera。
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
宾夕法尼亚州匹兹堡 - 2025年2月10日 - 今天的库存情报解决方案收集AI宣布将通过Modalai的Voxl 2 Autopilot提供的新的US-MADE-MADE Starling 2 Logis无人机来增强其DJI无人机,用于客户仓库库存数据收集。此添加在第2季度2025中获得,将有助于仓库操作和创新团队最大化收集AI软件解决方案,以提高计数和应用程序灵活性。收集AI计算机视觉技术使无人机可以自主飞行,而无需GPS,WiFi或基础设施更改。机器学习算法分析库存图片,读取和解释远远超出了条形码,包括批号,文本,有效期,案例计数和占用信息。仓库运营商可以将其实时物理库存与仓库管理系统(WMS)数据进行比较,以进行最高准确性所需的任何更改。该解决方案最常用于第三方物流(3PL),零售分销,制造以及食品和饮料,但它
许多神经系统条件会破坏大脑与其环境之间的信息流。这些疾病包括大脑或脊髓损伤,肌萎缩性侧面硬化症(ALS),脑干中风,多发性硬化症等。这些疾病和其他退化性疾病会损害控制肌肉或损害肌肉本身的神经途径。严重的病例可能导致自愿控制的丧失,包括眼动和呼吸。因此,受影响的个体可能会完全锁定在自己的身体上,无法以任何方式进行交流。现代医疗技术可以使许多如此瘫痪的人过长寿,这加剧了他们的疾病的个人,社会和经济负担。没有治愈这些疾病的任何选择,还保留了三个用于恢复功能的选项[1,2]。第一种选择是增加剩余输出选项的功能。换句话说,仍处于自愿控制的肌肉可以代替瘫痪的肌肉。这种替代通常在实践中受到限制,但仍然有用。对于特殊的技术,借助适当的技术,严重瘫痪的个体可以使用眼动来控制计算机[3];否则他们可能会使用手动作来产生合成语音[4-9]。第二种选择是通过绕过受损的通用途径来恢复功能。例如,脊髓损伤的患者可以使用高于病变水平的肌肉活动来控制瘫痪的肌肉的电刺激,
我们使用两种互补视觉方式探索视觉增强学习(RL):基于框架的RGB凸轮和基于事件的动态视觉传感器(DVS)。iSTING多模式视觉RL方法在有效提取与任务相关的信息时经常遇到挑战。为了解决这个问题,我们提出了用于视觉RL的分解多模式表示(DMR)框架。它将输入分为三个不同的组成部分:与任务相关的效果(共同功能),RGB特异性噪声和DVS特异性噪声。共同创作表示与RL任务相关的两种模式中的完整信息;这两个噪声组件都受到数据重构损失以避免信息泄漏的约束,与共同创作形成对比,以最大程度地差异。广泛的经验表明,通过明确分开不同信息的类型,我们的方法可实现与最先进的方法相比,实质性改善的政策绩效。
缺失模态问题对于多模态模型来说至关重要,但并非易事。当前旨在处理多模态任务中缺失模态问题的方法要么仅在评估期间处理缺失模态,要么训练单独的模型来处理特定的缺失模态设置。此外,这些模型是为特定任务设计的,例如,分类模型不易适应分割任务,反之亦然。在本文中,我们提出了共享特定特征建模 (ShaSpec) 方法,该方法比解决上述问题的竞争方法简单得多,也更有效。ShaSpec 旨在通过学习共享和特定特征来更好地表示输入数据,从而在训练和评估期间利用所有可用的输入模态。这是通过一种依赖于基于分布对齐和域分类的辅助任务以及残差特征融合程序的策略实现的。此外,ShaSpec 的设计简单性使其易于适应多种任务,例如分类和分割。在医学图像分割和计算机视觉分类方面进行了实验,结果表明 ShaSpec 的表现远胜于竞争方法。例如,在 BraTS2018 上,ShaSpec 将增强肿瘤的 SOTA 提高了 3% 以上,将肿瘤核心的 SOTA 提高了 5%,将整个肿瘤的 SOTA 提高了 3%。1