视觉 - 语言变压器(VLT)最近显示出巨大的成功,但同时伴随着大量的计算成本,其中主要原因可以归因于大量的视觉和语言令牌。存在用于压缩VLTS的令牌修剪研究主要遵循基于单模式的方案,但忽略了对齐不同模态来指导令牌修剪过程的关键作用,从而导致重要的代币在另一个模态分支中错误地修剪一个模态。同时,现有的VLT修剪作品也缺乏基于不同输入样本动态压缩每一层的灵活性。为此,我们提出了一个名为M Ultodal的新颖框架,用于加速变化VLT的木质制成d ynamic t ynamic t oken p Runing(MADTP)。具体来说,我们首先引入了精心设计的多模式对齐指导(MAG)模块,该模块可以使相同语义概念的特征与不同的模式相结合,以确保修剪的代币对所有模式都不太重要。我们进一步设计了一种新型的dy-namic令牌修剪(DTP)模块,该模块可以根据不同的输入实例自适应地调节每个层中的令牌压缩比。对各种基准测试的广泛实验表明,MADTP可以显着确定多种模型的计算复杂性,同时保留竞争性能。值得注意的是,当将MADTP应用于NLVR2数据集中的BLIP模型时,可以将GFLOPS降低80%,而性能降低少于4%。该代码可在https://github.com/double125/madtp上找到。
决策算法在社会中的存在感如今正在迅速增加,同时人们也开始担心其透明度以及这些算法可能成为新的歧视来源。事实上,许多相关的自动化系统已被证明会根据敏感信息做出决策或歧视某些社会群体(例如,某些用于人员识别的生物特征识别系统)。为了研究当前基于异构信息源的多模态算法如何受到数据中的敏感元素和内部偏见的影响,我们提出了一个虚构的自动招聘测试平台:FairCVtest。我们使用一组有意识地以性别和种族偏见进行评分的多模态合成档案来训练自动招聘算法。FairCVtest 展示了此类招聘工具背后的人工智能(AI)从非结构化数据中提取敏感信息并以不良(不公平)的方式将其与数据偏见结合起来的能力。最后,我们列出了最近开发能够从深度学习架构的决策过程中删除敏感信息的技术的列表。我们使用其中一种算法(SensitiveNets)来实验歧视感知学习,以消除我们多模态 AI 框架中的敏感信息。我们的方法和结果展示了如何生成更公平的基于 AI 的工具,特别是更公平的自动招聘系统。
摘要。通过互补感应方式整合各种表示形式对于自主驾驶中的强大场景解释至关重要。近年来,融合视觉和范围数据的深度学习体系结构具有先进的2D和3D对象检测。但是,这些方式在不利的天气或照明条件下通常会降解,从而导致性能下降。虽然已经开发了域适应性甲基元素来弥合源域和目标域之间的缝隙,但由于源和目标域之间的固有差异,它们通常会缺乏。此差异可以在数据的不同分布和不同特征空间的不同分布中表现出来。本文介绍了一个全面的域自适应对象检测框架。通过深度转移学习开发,该框架旨在从标记的透明天气数据中稳健地概括到无标记的不良天气条件,从而增强了基于深度学习的对象检测模型的性能。创新的斑块熵融合模块(PEFM)是我们方法的核心,该方法动态整合了sens-sor数据,强调关键信息并最大程度地减少了背景干扰。这进一步补充了一种新型的加权决策模块(WDM),该模块(WDM)根据其在特定环境条件下的功效来调整不同传感器的贡献,从而优化了检测准确性。此外,我们在转移学习过程中集成了域对齐损失,以确保有效的域适应性通过将特征图差异定于清晰和不利天气数据集之间的差异。我们评估了不同数据集的模型,包括Exdark(单峰),CityScapes(单峰)和密集(Mul-timodal),在我们评估的时间点,它在所有数据集中排在所有数据集中。
超分辨率医学图像可帮助医生提供更准确的诊断。在许多情况下,计算机断层扫描 (CT) 或磁共振成像 (MRI) 技术在一次检查期间会捕获多个扫描 (模式),这些扫描 (模式) 可以联合使用 (以多模态方式) 来进一步提高超分辨率结果的质量。为此,我们提出了一种新颖的多模态多头卷积注意模块来超分辨率 CT 和 MRI 扫描。我们的注意模块使用卷积运算对多个连接的输入张量执行联合空间通道注意,其中核 (感受野) 大小控制空间注意的减少率,卷积滤波器的数量控制通道注意的减少率。我们引入了多个注意头,每个头具有不同的感受野大小,对应于空间注意的特定减少率。我们将多模态多头卷积注意力 (MMHCA) 集成到两个深度神经架构中以实现超分辨率,并对三个数据集进行了实验。我们的实证结果表明,我们的注意力模块优于超分辨率中使用的最先进的注意力机制。此外,我们进行了一项消融研究,以评估注意力模块中涉及的组件的影响,例如输入的数量或头部的数量。我们的代码可在 https://github.com/lilygeorgescu/MHCA 免费获取。
摘要:本研究提出了一种新的梦境记录方法,该方法结合了非侵入式脑机接口 (BMI)、思维输入软件和生成式 AI 辅助多模态软件。该方法旨在将 REM 睡眠期间的意识过程升华到半意识状态,并产生用于思维输入的信号。我们概述了一个两阶段的过程:首先,使用生成式 AI 开发多模态软件来补充文本流并生成多媒体内容;其次,采用基于摩尔斯电码的打字方式来简化信号要求并提高打字速度。我们通过建议一种涉及植入 BMI 的用户的控制系统来优化非侵入式信号,从而应对非侵入式 EEG 的挑战。文献综述重点介绍了 BMI 打字、意识过程升华以及生成式 AI 在基于文本提示的思维输入方面的潜力方面的最新进展。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
taxabind通过结合多种模型来执行物种分类来解决对生态问题的更强大和统一方法的需求(这是什么样的熊?),分配映射(在哪里?),以及与生态学有关的其他任务。该工具也可以用作与生态建模有关的大型研究的起点,科学家可能用来预测动植物种群的转变,气候变化的影响或人类活动对生态系统的影响。
Hannah P. Gideon, 1 , 2 , 23 Travis K. Hughes, 3 , 4 , 5 , 23 Constantine N. Tzouanas, 3 , 4 , 5 , 23 Marc H. Wadsworth II, 3 , 4 , 5 , 6 Ang Andy Tu, 7 Todd M. Gierahn, 7 Joshua M. Peters, 4 , 7 Forrest F. Hopkins, 4 , 8 Jun-Rong Wei, 4 , 8 Conner Kummerlowe, 9 Nicole L. Grant, 1 Kievershen Nargan, 10 Jia Yao Phuah, 1 H. Jacob Borish, 1 Pauline Maiello, 1 Alexander G. White, 1 Caylin G. Winchell, 1 , 2 , 11 Sarah K. Nyquist, 3 , 4 , 5 , 9 , 12 Sharie Keanne C. Ganchua, 1 Amy Myers, 1 Kush V. Patel, 1 Cassaundra L. Ameel, 1 Catherine T. Cochran, 1 Samira Ibrahim, 3 , 4 , 5 Jaime A. Tomko, 1 Lonnie James Frye, 1 Jacob M. Rosenberg, 4 , 8 , 13 Angela Shih, 13 Michael Chao, 4 , 8 Edwin Klein, 14 Charles A. Scanga, 1 , 2 Jose Ordovas-Montanes, 4 , 5 Bonnie伯格(Berger),约书亚·T·马蒂拉(Joshua T. Shalek 3,4,5,6,6,18,24,25, * 1微生物学和分子遗传学系,匹兹堡大学医学院,宾夕法尼亚州匹兹堡,宾夕法尼亚州匹兹堡研究中心,匹兹堡,宾夕法尼亚州匹兹堡大学,美国宾夕法尼亚州匹兹堡大学,美国3号宾夕法尼亚州匹兹堡大学3.哈佛大学,马萨诸塞州剑桥,美国5麻省理工学院和哈佛大学,马萨诸塞州剑桥市6美国6化学系,马萨诸塞州理工学院,马萨诸塞州剑桥市,美国7 7生物工程系),sfortune@hsph.harvard.edu(S.M.F.美国马萨诸塞州波士顿,马萨诸塞州波士顿公共卫生学院9计算与系统生物学计划,马萨诸塞州技术研究所,美国马萨诸塞州剑桥市,美国10号非洲卫生研究所,南非德班,南非,肺部,过敏和重症监护医学司,匹兹堡大学,匹兹堡大学,匹兹堡,帕特斯堡,帕特斯堡,帕特斯堡,帕特斯堡,帕特斯堡,美国12级计算机。美国马萨诸塞州剑桥市技术,13美国马萨诸塞州马萨诸塞州马萨诸塞州综合医院,美国马萨诸塞州波士顿,美国14号实验室动物研究部,匹兹堡大学,匹兹堡宾夕法尼亚州匹兹堡大学15美国匹兹堡,匹兹堡大学匹兹堡大学的传染病学系,美国15南非德班,纳塔尔17化学工程系,马萨诸塞州剑桥,马萨诸塞州剑桥市,美国马萨诸塞州剑桥研究所18宾夕法尼亚州剑桥市的马萨诸塞州综合癌症研究所,马萨诸塞州科技研究所19 of KwaZulu-Natal, Durban, South Africa 21 Department of Infection and Immunity, University College London, London, UK 22 Department of Microbiology and Physiological Systems, University of Massachusetts Medical School, Worcester, MA, USA 23 These authors contributed equally 24 These authors contributed equally 25 Lead contact *Correspondence: joanne@pitt.edu (J.L.F.),shalek@mit.edu(A.K.S。)https://doi.org/10.1016/j.immuni.2022.04.004
摘要 - 预测衰老个体临床下降的轨迹是一个紧迫的挑战,尤其是对于患有轻度认知障碍,阿尔茨海默氏病,帕金森氏病或血管性痴呆症患者而言。准确的预测可以指导治疗决策,确定风险因素并优化临床试验。在这项研究中,我们比较了在临床痴呆率评级量表“盒子总和”评分(SOBCDR)中,在2年间隔内进行了两种深度学习方法。这是痴呆症研究中的关键指标,评分范围从0(无损害)到18(严重损害)。为了预测下降,我们训练了一个混合卷积神经网络,该网络将3D T1加权的脑MRI扫描与表格临床和人口统计学特征(包括年龄,性别,体重指数(BMI)和基线SOBCDR)相结合。我们针对Autogluon进行了基准测试,Autogluon是一个自动化的多模式学习框架,选择了适当的神经网络体系结构。我们的结果证明了将图像和表格数据组合在临床应用预测建模中的重要性。深度学习算法可以融合基于图像的大脑特征和表格临床数据,并具有衰老和痴呆症的个性化预后。
自动驾驶汽车(AVS)需要可靠的交通标志识别和健壮的车道检测功能,以确保在复杂和动态的环境中实现安全的导航。本文介绍了一种综合方法,结合了先进的深度学习技术和多模式大型语言模型(MLLMS),以实现全面的道路。对于交通标志识别,我们系统地评估了Resnet-50,Yolov8和RT-Det,在Resnet-50中以99.8%的状态效果达到99.8%,Yolov8的精度为98.0%,尽管具有较高的计算机复杂性,但在RT-DECT上的精度达到了96.6%的精度。对于车道检测,我们提出了一种基于CNN的分割方法,通过多项式曲线拟合增强了,该方法在有利条件下肝脏高精度。更重要的是,我们引入了一个轻巧的,多模式的,基于LLM的框架,该框架直接进行了调整的指令,以调整您的小而多样化的数据集,从而消除了对Intial预处理的需求。该框架有效地处理了各种车道类型,复杂的交叉点和合并区域,可以通过不利条件下的推理来提高车道检测可靠性。尽管有限制可用的培训资源,但我们的多模式方法表明了高级推理能力,达到了53.87%的所有准确性(FRM),这一问题总体上是82.83%的总体确保(QNS),在清晰的条件下,泳道的检测准确性为99.6%,在夜间和93.0%的情况下为93.0%的雨水,以及8.0%的雨水,以及8.8的范围。道路退化(95.6%)。拟议的综合框架显着增强了AV感知的可观性,从而极大地促进了在各种和充满挑战的道路方案中更安全的自主驾驶。