多模式的大语言模型(MLLM)在利用其丰富知识的挑战中面临挑战,因为跨越不同的模式是不平凡的,并且它们的上下文歧义是由于缺乏配对数据而引起的。在基于MLLM的音频生成的背景下,音频文本配对数据集的注释需要大量的人力资源,这是由于音频数据的复杂性,这使与图像text配对数据集相比,此类数据集越来越难以访问。为了解决这些问题,我们提出了一种称为高效生成多模式集成(EGMI)的新技术,该技术仅利用图像 - 文本数据来实现音频生成任务。基于验证的LLM关于文本理解的强大知识,EGMI成功利用图像文本配对的数据集进行跨模式对齐,从而使音频和图像信息之间的交互作用。我们还引入了一个高效的映射网络,称为EGMI映射器,并在生成音频数据时使用它来参与图像信息。因此,我们已经扩大了现有方法的限制,从可伸缩性和灵活性方面。此外,我们已经证明了EGMI最大程度地提高了交叉模式知识,改善对准和样本质量之间的相互作用。
摘要。在人工智能飞速发展的时代,多模态自然语言处理(NLP)已成为一个至关重要的领域。本文探讨了多模态NLP在跨媒体信息理解与生成中的意义和应用。多模态NLP通过整合文本、图像、音频和视频等多种模态,旨在提高语言理解和生成的准确性和全面性。本文讨论了多模态NLP中使用的各种技术和模型,包括深度学习架构和注意力机制。本文还研究了该领域的挑战和未来方向,强调了改进人机交互和智能应用的潜力。通过案例研究和实验结果,本文证明了多模态NLP在图像字幕、视频描述生成和跨模态检索等任务中的有效性。总体而言,多模态 NLP 对于提升人工智能能力以及实现人机之间更自然、更无缝的交互具有巨大潜力。
前列腺癌是全球男性中最常见的癌症,也是全球男性死亡的第二大原因,仅次于肺癌(Bray 等人,2018 年;Sung 等人,2021 年)。八分之一的男性在其一生中会被诊断出患有前列腺癌。尽管发病率很高,但前列腺癌的 5 年生存率超过 90%,因为大多数诊断出的癌症都局限于前列腺内(局部或区域性),只有约 7% 的男性在诊断时会患有更晚期的前列腺癌(Rawla,2019 年)。尽管如此,我们识别那些癌症会缩短其寿命和/或生活质量的男性的能力仍然很差(Bangma 等人,2007 年)。目前,前列腺癌的既定诊断途径包括 PSA 筛查和诊断性活检,其过度诊断率(1.7 – 67%)、过度治疗、漏诊和风险分层不佳(Loeb 等人,2014 年)。这些错误导致应用的治疗方法几乎没有或根本没有好处,降低了患者的生活质量,并导致宝贵的医疗资源使用效率低下(Klotz,2013 年)。前列腺癌风险评估工具可以在诊断时区分出罹患侵袭性疾病风险最低的男性和风险最高的男性,这对于改善患者的治疗效果和生活质量是必不可少的。ReIMAGINE 联盟 (ReIMAGINE Consortium, 2021) 由三个学术合作伙伴(伦敦大学学院 (UCL)、伦敦国王学院 (KCL) 和伦敦帝国理工学院)、多个商业合作伙伴以及一个患者和公众参与 (PPI) 小组委员会组成,旨在开展发现,以纠正 PCa 诊断途径中持续存在的关键错误(过度诊断、过度治疗、漏诊和风险分层不佳)。我们将首次将癌症的潜在分子变化与深度临床表型分析和最先进的成像相结合。将来,这可能让我们无需进行活检即可预测个人的前列腺癌状况(低风险、中风险或高风险),并预测哪些前列腺癌随着时间的推移更有可能发展,而这在很大程度上是我们无法做到的。因此,男性将接受更少但更好的活检;有效的风险分层策略将导致适当的治疗分配,最终提高护理质量并提高医疗保健系统的成本效益。需要集成大型数据集的项目(例如 ReIMAGINE)需要集成数据仓库。这不仅包括大量患者(“长数据”)的容量,还包括来自不同数据类型的大量数据字段(“宽数据”)的容量(Hulsen 和 Moustafa,2021 年)。数据仓库需要能够将原始数据与可查询的元数据结合存储,以实现队列选择、数据可视化和统计分析等。数据还需要是 FAIR(Wilkinson 等人,2016 年)——可查找、可访问、可互操作和可重用——以符合最新法规。在开源世界中,有多个系统可以充当临床数据的数据仓库。其中之一是 tranSMART,这是一个基于网络的平台,用于整合为转化研究创建的数据(Scheufele 等人,2014 年)。
尽管它们取得了成功,但人们并不总是清楚,在多大程度上真正的多模态推理和理解对于解决当前的许多任务和数据集是必需的。例如,有人指出,语言可能会无意中强加强大的先验,从而产生看似令人印象深刻的性能,而对底层模型中的视觉内容却没有任何理解 [15]。在 VQA [3] 中也发现了类似的问题,其中没有复杂多模态理解的简单基线表现非常好 [94, 35, 1, 26],在多模态机器翻译 [18, 74] 中,图像被发现相对重要 [13, 17, 7]。在这项工作中,我们提出了一个旨在衡量真正的多模态理解和推理的挑战集,具有直接的评估指标和直接的真实世界用例。
摘要:随着计算能力的提高和海量数据集的增长,人工智能(AI)得到了迅速发展。然而,这一进步也增加了解释人工智能模型“黑箱”性质的挑战。为了解决这些问题,可解释人工智能(XAI)应运而生,它注重透明度和可解释性,以增强人类对人工智能决策过程的理解和信任。在多模态数据融合和复杂推理场景的背景下,多模态可解释人工智能(MXAI)的提出将多种模态集成在一起用于预测和解释任务。同时,大型语言模型(LLM)的出现导致了自然语言处理方面的重大突破,但它们的复杂性进一步加剧了 MXAI 的问题。为了深入了解 MXAI 方法的发展,并为构建更透明、公平和值得信赖的 AI 系统提供重要指导,我们从历史角度回顾了 MXAI 方法,并将它们分为四个时代:传统机器学习、深度学习、判别基础模型和生成式 LLM。我们还回顾了 MXAI 研究中使用的评估指标和数据集,最后讨论了未来的挑战和方向。与此评论相关的项目已在 https://github.com/ShilinSun/mxai review 上创建。
摘要 我们开发了一种可穿戴实验传感器装置,其特点是多模态 EEG+fNIRS 神经成像,适用于人类行为与技术交互的现场实验。低成本脑电图 (EEG) 与可穿戴功能性近红外光谱 (fNIRS) 系统相结合,我们将其分为两部分进行介绍。论文 A 详尽描述了设置基础设施、数据同步过程、使用程序(包括传感器应用)以及如何确保高信号质量。本文(论文 B)展示了该装置在三个不同用例中的可用性:传统的人机交互实验、参与者在城市和高速公路上驾驶汽车的现场驾驶实验以及现场阿斯汤加瑜伽练习。我们展示了来自高度生态有效的实验装置的认知负荷数据,并讨论了经验教训。这些包括可接受和不可接受的人工制品、数据质量以及可以使用该装置进行调查的构造。关键词:EEG+fNIRS、现场实验、设计中的人类行为、以用户为中心的设计、研究方法和方法联系人:Dybvik,Henrikke 挪威科技大学机械与工业工程系挪威 henrikke.dybvik@ntnu.no
1. HRP 风险和已解决的差距 本文回顾的工作解决了与人机交互 (HCI) 不足风险相关的几个差距,包括差距 HCI-03,“我们需要 HCI 指南(例如,显示配置、屏幕导航)来缓解长时间太空飞行的性能下降和操作条件”,并将其输入到后续任务“长期信息系统/多模式信息验证”下。 在差距 HCI-06 下:我们需要指导方针来确保机组人员即使在自主操作时也能及时收到完成必要任务所需的所有信息。 它也与差距 HCI-04 非常相关,“我们需要了解如何将新兴的多模式和自适应显示和控制技术最好地应用于拟议的长期 DRM(设计参考任务)操作的 HCI 设计中。” 该报告的一个具体目标是帮助制定包括多模式信息显示在内的新研究征集所涵盖的主题。该报告将通过评估目前已知的多模式自适应信息系统,包括结合多种模式以实现最有效信息显示的最佳实践,帮助缩小 HCI-03 和 HCI-04 之间的差距。该报告将对长期任务的潜在多模式显示技术进行分析,特别是将重点关注它们在 EVA 活动中的潜在作用。开发界面指南中的潜在问题
• 虽然该地区已增设自行车道,但这仍不能满足该地区自行车骑行者的全部需求,尤其是对那些经验不足的骑行者而言,而且完全越野骑行的选择尚未探索。该计划将专门研究探索为这些用户群体提供服务的方案。
摘要 — 理解神经功能通常需要多种模式的数据,包括电生理数据、成像技术和人口统计调查。在本文中,我们介绍了一种新颖的神经生理模型,以应对多模态数据建模的主要挑战。首先,我们通过解决可变采样率问题来避免原始信号和提取的频域特征之间的不一致问题。其次,我们通过与其他模态的“交叉注意”对模态进行编码。最后,我们利用父变换器架构的属性来模拟跨模态段之间的长距离依赖关系,并评估中间权重,以更好地了解源信号如何影响预测。我们应用多模态神经生理变换器 (MNT) 来预测现有开源数据集中的效价和唤醒。对非对齐多模态时间序列的实验表明,我们的模型在分类任务中的表现相似,在某些情况下甚至优于现有方法。此外,定性分析表明 MNT 能够模拟神经对自主活动的影响以预测唤醒。我们的架构有可能针对各种下游任务进行微调,包括 BCI 系统。
修复美国的地面运输(FAST)法案是一项为期五年的表面运输法案,于2015年12月4日通过。基于21世纪法案(MAP-21)进步的前进,《快速法案》建立了国家高速公路货运计划(NHFP),其中包括63亿美元的配方奶粉资金,以改善指定的国家高速公路货运网络(NHFN)。快速法案还建立了国家多式联运政策和目标。为了实现目标,美国运输部(美国dot)于2020年9月发布了国家货运战略计划(NFSP),该计划评估了国家货运系统的状况和绩效,并提供了预测和改进策略。美国DOT还正在开发国家多模式货运网络(NMFN),其中包括关键的多模式设施(例如,公共港口,水路,铁路)。