预训练的视觉语言(V-L)模型(例如剪辑)表现出了出色的泛化能力,可以在下游任务下进行。但是,它们对选择输入文本提示很敏感,需要仔细选择及时模板才能表现良好。受到自然语言处理(NLP)文献的启发,最近的剪辑适应方法学习提示是作为下流任务的文本输入的文本输入。我们注意到,在剪辑的单个分支(语言或视觉)中使用提示将代表改编为亚最佳选择,因为它不允许在下游任务上动态调整两个表示空间。在这项工作中,我们提出了视觉和语言分支的多模式提示学习(枫),以证明视觉和语言代表之间的一致性。我们的设计促进了视觉语言提示之间的牢固耦合,以确保相互协同作用并宣扬学习独立的单模式解决方案。,我们在不同的早期阶段学习了单独的提示,以逐步建模阶段的特征关系,以允许丰富的上下文学习。我们评估了方法对新的类别,新的目标数据集和看不见的主要变化的三个代表性任务的有效性。与最先进的方法合作社相比,枫木表现出良好的性能,并且在新型类别上获得了3.45%的绝对增益,而总体谐音均值为2.72%,平均有11种不同的图像识别数据集。我们的代码和预培训模型可在https://github.com/muzairkhattak/multimodal- strick-learning上找到。
©作者2023。Open Access本文是根据Creative Commons Attribution 4.0 International许可获得许可的,该许可允许以任何媒介或格式使用,共享,适应,分发和复制,只要您对原始作者和来源提供适当的信誉,请提供与创意共享许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的创意共享许可中,除非在信用额度中另有说明。如果本文的创意共享许可中未包含材料,并且您的预期用途不受法定法规的允许或超过允许的用途,则您需要直接从版权所有者那里获得许可。要查看此许可证的副本,请访问http://创建ivecommons。org/licen ses/by/4。0/。Creative Commons公共领域奉献豁免(http://创建ivecommons。Org/publi cdoma in/Zero/1。0/1。0/)适用于本文中提供的数据,除非在数据信用额度中另有说明。
对声带的准确建模对于构建可解释的语音处理和语言学的关节表达是必要的。但是,声带建模是具有挑战性的,因为许多内部铰接器都被外部运动捕获技术遮住了。实时磁共振成像(RT-MRI)允许在语音过程中测量膜枢纽器的精确运动,但是由于耗时和计算昂贵的标记方法,带注释的MRI数据集限制了大小。我们首先使用仅视觉分段的方法为RT-MRI视频提供了深刻的标签策略。然后,我们使用音频引入多模式算法,以改善人声铰接器的分割。一起,我们为MRI视频细分中的声带建模设定了一个新的基准测试,并使用它来发布75个扬声器RT-MRI数据集的标签,从而将人声道标记的公共RT-MRI数据增加到9。代码和数据集标签可以在rishiraij.github.io/ mult-opodal-mri-avatar/。索引术语:发音演讲,视听感知
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
人工智能 (AI) 技术在各种实际应用中用于增强人类绩效,这为应急管理带来了前所未有的机遇。然而,目前对计算机视觉和自然语言处理等 AI 技术的探索主要集中在应急响应上,对准备和缓解阶段的研究较少。应急服务的训练演习对于让响应者在现实世界中有效工作至关重要,为利用 AI 技术提供了场所。在本文中,我们展示了一种 AI 应用,以解决在实时增强此类训练演习中的教员或培训师绩效的挑战,明确目的是减少从大量多模态数据(包括视频记录和 IoT 传感器流)中提取相关知识时的认知负荷。我们介绍了一种用于多模态流分析的 AI 系统设计,以及在针对活跃暴力事件的区域训练演习中使用该系统的经验教训。
近年来,煽动性或误导性的“假”新闻内容泛滥已变得越来越普遍。同时,使用 AI 工具生成描绘任何可以想象到的场景的逼真图像也变得比以往任何时候都更容易。将这两者结合起来——AI 生成的假新闻内容——尤其有害且危险。为了打击 AI 生成的假新闻的传播,我们提出了 Mi-RAGeNews 数据集,这是一套包含 12,500 个高质量真实和 AI 生成的图像-字幕对的数据集,这些图像-字幕对均来自最先进的生成器。我们发现我们的数据集对人类(60% F-1)和最先进的多模态 LLM(< 24% F-1)都构成了重大挑战。使用我们的数据集,我们训练了一个多模态检测器(MiRAGe),与来自域外图像生成器和新闻发布商的图像-字幕对的最新基线相比,其 F-1 提高了 +5.1%。我们发布代码和数据以帮助未来检测人工智能生成的内容。1
摘要。光伏发电系统与可变需求的整合可能会导致配电网不稳定,这是由于功率波动和反应物增加造成的,尤其是在工业部门。为此,光伏装置配备了本地存储系统,最终吸收功率波动并提高安装性能。然而,在此过程中,储能可以提供的其他功能被忽略了。因此,本研究提供了一种多模式能源监控和管理模型,该模型通过储能系统的最佳运行实现电压调节、频率调节和无功功率补偿。为此,开发了一种平滑控制算法,该算法与公共连接点的电网参数相互作用,还允许根据工业需求曲线补偿无功功率。该策略使用能源消耗前的历史需求数据的长短期记忆神经网络,RMSE 相对较低,为 1.2e-09。结果之前已在开发环境中使用实时 OPAL-RT 模拟器进行了验证,并在昆卡大学的电气微电网实验室进行了测试。这种配置允许建立需求预测模型,从而改善日常能源生产的监督、自动化和分析。提供并分析了一系列结果,表明新工具可以利用多模式功能,实现最佳电压调节,并通过将总谐波失真 THD (V) 和 THD (I) 指数分别降低 0.5% 和 2% 来提高电能质量。
在过去的几十年里,医疗数据的大量扩张促使人们寻找智能医疗系统中数据分析的方法。从图片、档案、通信系统、电子健康记录、在线文档、放射学报告和不同风格的临床记录中获取具有特定数字信息的数据,引发了多模态概念的产生,也需要机器学习和深度学习技术来分析医疗系统。医疗数据在医学教育和诊断中起着至关重要的作用;确定不同模态之间的依赖关系至关重要。本文概述了当前的放射医学数据分析技术及其各种表示和分类方法和框架。简要概述了现有的医学多模态数据处理工作。本研究的主要目的是发现调查领域的差距,并列出放射学未来的任务和挑战。本研究纳入了系统评价和荟萃分析 (PRISMA) 指南的首选报告项目,以便有效地搜索文章并调查一些相关的科学出版物。对多模态医学数据分析进行了系统评价,并强调了其优势、局限性和策略。人工智能医疗领域的多模态性所具有的固有优势对疾病诊断框架的性能有着重大影响。
kitchin.org › multimodal-VR-2002 PDF 作者:R Golledge · 被引用次数:48 — 作者:R Golledge · 被引用次数:48 usage for sighted individuals by enhancing human-computer interaction ... been used in aircraft cockpits and to aid satellite ground control stations.
防空雷达、军用飞机和导弹的情况。空中交通管制雷达 (ATC) 是空中交通管理中用于保护和监控民用和军用空中交通的所有雷达设备的总称。它们通常是具有高度专业化的固定雷达系统。防空雷达可以在相对较大的天空范围内探测空中目标并确定其位置、航向和速度。最大范围可以超过 300 英里,方位覆盖是一个完整的 360 度圆。根据提供的位置信息量,防空雷达分为两类。仅提供距离和方位信息的雷达称为二维或 2D 雷达;提供距离、方位和高度的雷达是三维或 3D 雷达。防空雷达被用作预警设备,因为它们可以在很远的距离探测到正在接近的敌机或导弹。早期探测对于成功防御攻击至关重要。另一个功能是引导战斗空中巡逻机到达适合拦截敌机的位置。