多模式

2024-11-19 机构名称:

整合多模式治疗以优化癌症治疗

癌症仍然是全球发病和死亡的主要原因之一。在过去的几十年里，癌症的治疗有了很大的发展，靶向治疗、免疫治疗等新型治疗方式的引入，以及手术技术的进步。多模式治疗的概念涉及整合不同的治疗方法——如手术、化疗、放疗和较新的生物疗法——以最大限度地提高癌症治疗的疗效。本综述深入探讨了多模式治疗在优化癌症治疗中的作用[1]。

查看详细

File

2024-03-24 机构名称:

机器学习的最新进展表明，与随机初始化的模型相比，多模式的预训练可以改善自动语音识别（ASR）性能，即使模型在Uni-Modal-Modal任务上进行了微调。ASR任务的现有多模式预训练方法主要集中在单级预训练上，其中单个无监督任务用于预训练，然后在下游任务上进行微调。在这项工作中，我们介绍了一种新颖的方法，该方法将多模式和多任务的无监督预训练与基于翻译的监督中期训练方法相结合。我们从经验上证明，这种多阶段方法会导致相对单词错误率（WER）在LibrisPeech和Superb上的基线比基线高达38.45％的改善。此外，我们分享了选择预训练方法和数据集的几个重要发现。

查看详细

File

2024-03-14 机构名称:

mm-iglu：多模式互动基础语言理解

摘要本文探讨了人类机器人相互作用（HRI）内的交互式基础语言理解（IGLU）挑战。在此设置中，机器人解释了与其环境相关的用户命令，旨在辨别是否可以执行特定命令。如果面对歧义或不完整的数据，机器人提出了相关的澄清问题。从2022年IGLU竞争中汲取灵感，我们通过在MM-iglu中引入我们的多模式数据和自然语言描述来丰富数据集：多模式互动式的基础语言理解。利用基于BART的模型将用户的语句与环境的描述集成在一起，以及合并视觉和文本数据的尖端多模式大型语言模型，我们为域上正在进行的研究提供了宝贵的资源。此外，我们讨论了此类任务的评估方法，强调了传统的基于弦匹配的评估对此复杂的多模式挑战所施加的潜在局限性。此外，我们根据人类判断提供了评估基准，以解决此类基线模型的限制和能力。此资源在https://github.com/crux82/mm-iglu上的专用GitHub存储库中发布。

查看详细

File

2024-07-25 机构名称:

图像和文本上的多模式大语言模型的安全性

受到多模式大语言模型（MLLM）的令人印象深刻的力量的吸引，公众越来越多地利用它们来提高日常工作的效率。尽管如此，当在现实世界中部署这些模型时，MLLM的脆弱性不安全说明带来了巨大的安全风险。在本文中，我们在评估，攻击和防御图像和文本上的评估，攻击和防御方面进行了趋势调查。我们首先介绍了MLLM在图像，文本以及安全性理解的概述，这有助于研究人员了解我们调查的详细范围。然后，我们查看评估数据集和指标，以确保MLLM的安全性。接下来，我们可以介绍与MLLM的安全性相关的攻击和防御技术。最后，我们解决了一些未解决的问题，并讨论了诺言的研究指示。相关论文是在https://github.com/isxinliu/awesome-mllm-safety上收集的。

查看详细

File

2024-06-14 机构名称:

多模式医学图像分类的分裂学习

摘要 - 在过去的几十年中，机器学习（ML）在医学图像分类中取得了重大进展。成功可以归因于两个因素：（i）诊所/医院收集和处理的独特患者数据以及（ii）解决基本分类任务的相应ML模型。实际上，患者数据可能包含患者人口统计学特有的敏感信息；和ML模型通常需要更高的计算资源，而不是单个医院的负担能力。考虑实际问题，我们探索了一种协作ML方法，其中称为客户的数据提供商旨在利用服务器的计算资源共同培训一个统一的ML模型，而无需共享任何原始数据。特别是，我们使用包含多模式图像输入和多标签地面真实的现实世界数据集专注于皮肤病变分类问题。为了启用协作性但具有隐私性的皮肤病变障碍，我们基于U形拆分学习，开发了一个名为SplitFusionNet的学习框架。SplitFusionNet的关键思想是将ML模型分为深神经网络层的（客户端，服务器）分区：客户端层处理多模态输入数据和多标签，而服务器层执行计算广泛的中层计算。此外，我们应用无损压缩和减压来提高客户端和服务器之间的通信成本。在实验上，与非分类集中式培训相比，SplitFusionNet需要更少的训练管道时间，同时实现相等的预测性能。索引术语 - 分类学习，多模式分类，多标签分类，隐私的机器学习

查看详细

File

2024-10-23 机构名称:

移动性VLA：多模式指令导航，长期...

摘要：导航研究中的一个难以捉摸的目标是建立一个智能代理，该智能代理可以理解包括自然语言和IM的多模式说明，并执行有用的导航。为了实现这一目标，我们研究了一个广泛有用的导航任务，我们称之为多模式指令导航，该导航带有恶魔之旅（MINT），其中通过预先录制的演示视频提供了先验的环境。视觉语言模型（VLM）的最新进展在实现这一目标方面表现出了有希望的途径，因为它展示了感知和推理多模式输入的能力。为了解决薄荷，我们提出了移动性VLA，这是一种层次视觉语言行动（VLA）导航政策，将环境理解和长篇小说VLM的常识推理能力结合在一起，以及基于拓扑图的强大的低级导航策略。高级策略由一个长篇小说VLM组成，该VLM将演示游览视频和多模式用户指令作为输入，以在旅行视频中找到目标框架。接下来，一个低级策略使用目标框架和构造的拓扑图来在每个时间步中生成机器人动作。我们在836M 2现实世界环境中评估了移动性VLA，并表明Mobility VLA在以前未解决的多模式指令中具有很高的端到端成功率，例如“我应该在哪里返回？”拿着一个塑料箱。可以在此处找到一个展示移动性VLA的视频：youtu.be/-tof Q8 5S

查看详细

File

2024-05-16 机构名称:

多模式数据的深度学习：融合和表示

早期融合：在早期融合中，来自不同方式的特征是在输入级别串联或组合的

查看详细

File

2024-03-18 机构名称:

I-70 East走廊多模式TDM计划

鉴于运输是科罗拉多州温室气体排放的最大贡献者，而轻型车辆是运输部门内部排放的最大来源，科罗拉多州已经实施了广泛的政策，计划和法规，以使运输部门脱碳。2021年12月，科罗拉多州的运输委员会采用了温室气体运输规划标准，该规则规定了科罗拉多州运输部（CDOT）（CDOT）和该州的大都市规划组织（MPOS）的运输规划过程。该规则在科罗拉多州减少运输部门的温室气体排放的总体策略中起着关键作用，并且是科罗拉多州还原碳降低策略的关键组织原则。根据温室气体运输计划标准，CDOT和该州的五个MPO需要在2025、2030、2040和2050中单独设置温室气体降低水平。要确定符合降低水平的依从性，代理商必须在其运输计划文件中对其现有的运输网络以及所有未来地区重要的能力项目进行建模。总体而言，该标准鼓励CDOT和MPO制定远程运输计划，以支持减少温室气体排放的旅行选择。

查看详细

File

2024-03-25 机构名称:

基于AI的痴呆病因鉴别诊断多模式数据

1酰基和DES-acyl Ghrelin的值是指97名参与者的数据。缺少5个HCP和1个MDD的数据。数据是平均值±SD，如果未另有说明。缩写：HCP =健康对照参与者，MDD =重度抑郁症，Homa-ir =胰岛素抵抗的稳态模型评估，Tyg =甘油三酸酯 - 葡萄糖指数，BDI = BECK的抑郁症库存，Shaps = Shaps = Snaph-Hamilton-Hamilton愉悦尺度。

查看详细

File

2021-06-08 机构名称:

端到端多模式物体检测 - Robert Babuska

摘要 — 为视觉任务设计的深度神经网络在遇到训练数据未涵盖的环境条件时往往容易失败。多传感器配置的有效融合策略可以通过利用不同传感器流的冗余来增强检测算法的鲁棒性。在本文中，我们提出了用于在恶劣照明条件下进行 2D 物体检测的传感器感知多模态融合策略。我们的网络学习以标量权重和掩码的形式估计每种传感器模态的测量可靠性，而无需事先了解传感器特性。将获得的权重分配给提取的特征图，随后将其融合并传递给变压器编码器-解码器网络以进行物体检测。这对于不对称传感器故障的情况至关重要，可以防止任何悲剧性后果。通过大量实验，我们表明，所提出的策略在 FLIR-Thermal 数据集上的表现优于现有的最先进方法，将 mAP 提高了 25.2%。我们还针对 RGB-D 多模态检测任务提出了一种新的“r-blended”混合深度模态。我们提出的方法在 SUNRGB-D 数据集上也取得了令人满意的结果。

查看详细

XiaoMi-AI文件搜索系统

多模式

整合多模式治疗以优化癌症治疗

自动语音识别的多阶段多模式预训练

mm-iglu：多模式互动基础语言理解

图像和文本上的多模式大语言模型的安全性

多模式医学图像分类的分裂学习

移动性VLA：多模式指令导航，长期...

多模式数据的深度学习：融合和表示

I-70 East走廊多模式TDM计划

基于AI的痴呆病因鉴别诊断多模式数据

端到端多模式物体检测 - Robert Babuska

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI