视觉 - 语言变压器(VLT)最近显示出巨大的成功,但同时伴随着大量的计算成本,其中主要原因可以归因于大量的视觉和语言令牌。存在用于压缩VLTS的令牌修剪研究主要遵循基于单模式的方案,但忽略了对齐不同模态来指导令牌修剪过程的关键作用,从而导致重要的代币在另一个模态分支中错误地修剪一个模态。同时,现有的VLT修剪作品也缺乏基于不同输入样本动态压缩每一层的灵活性。为此,我们提出了一个名为M Ultodal的新颖框架,用于加速变化VLT的木质制成d ynamic t ynamic t oken p Runing(MADTP)。具体来说,我们首先引入了精心设计的多模式对齐指导(MAG)模块,该模块可以使相同语义概念的特征与不同的模式相结合,以确保修剪的代币对所有模式都不太重要。我们进一步设计了一种新型的dy-namic令牌修剪(DTP)模块,该模块可以根据不同的输入实例自适应地调节每个层中的令牌压缩比。对各种基准测试的广泛实验表明,MADTP可以显着确定多种模型的计算复杂性,同时保留竞争性能。值得注意的是,当将MADTP应用于NLVR2数据集中的BLIP模型时,可以将GFLOPS降低80%,而性能降低少于4%。该代码可在https://github.com/double125/madtp上找到。
基于扩散的生成模型在合成和操纵图像具有巨大的图像方面表现出了令人鼓舞的结果,其中文本到图像模型及其后续作品在学术界和行业中都具有很大的影响。编辑真实图像时,用户通常希望对不同元素具有直观而精确的控制(即对象)组成图像,并不断地操纵它们。我们可以根据图像中的单个观察的控制级别对现有的图像编辑方法进行分类。一条工作涉及使用文本提示来操纵图像[2,15,24,27]。由于很难与文本同时描述多个对象的形状和外观,因此在对象级别上对细粒度控制的能力有限。同时,迅速的工程使操纵任务乏味且耗时。另一项工作线使用低级调理信号,例如Hu等人。[18],Patashnik等。[34],Zeng等。[58],草图[50],图像[5,47,54]编辑图像。但是,其中大多数作品要么属于迅速的工程陷阱,要么无法独立操纵多个对象。与以前的作品不同,我们的目标是独立控制组成图像的多个对象的正确条件,即对象级编辑。我们表明,我们可以在对象级编辑框架下制定各种图像编辑任务,从而实现全面的编辑功能。
a 瑞士苏黎世大学心理学系可塑性研究方法 b 瑞士苏黎世大学和苏黎世联邦理工学院苏黎世神经科学中心 (ZNZ) c 瑞士苏黎世大学大学研究优先计划“健康老龄化动力学” d 法国帕莱索巴黎萨克雷大学、Inria、CEA e 德国莱比锡马克斯普朗克人类认知和脑科学研究所神经病学系 f 加拿大魁北克省蒙特利尔蒙特利尔大学老年医学研究所功能神经影像科 g 美国德克萨斯州奥斯汀德克萨斯大学戴尔医学院计算神经影像实验室 h 美国密歇根州底特律韦恩州立大学老年学研究所和心理学系 i 加拿大蒙特利尔康考迪亚大学心理学系 j 大脑与运动研究所认知神经解剖学实验室épinière,法国巴黎 k 德克萨斯大学心理学系,美国德克萨斯州奥斯汀
近年来见证了一代和重建范式深入融合的趋势。在本文中,我们扩展了可控制的生成模块的能力,以实现更全面的手网恢复任务:在单个框架中,手工网格的生成,内部网状,重建,重建和拟合,我们将其命名为H olistic H和MESH R Ecovery(HHMR)。我们的主要观察结果是,具有强大多模式可偿还性的单个生成模型可以实现不同类型的手网恢复任务,并且在这样的框架中,实现不同的任务只需要给出不同的信号作为条件。为了实现这一目标,我们提出了基于图形卷积和整体手工网状恢复的注意力卷积和注意力机制的多合一扩散框架。为了实现强大的控制能力,同时确保多模式控制信号的解耦,我们将不同的模态映射到共享特征空间并应用跨尺度随机
视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
taxabind通过结合多种模型来执行物种分类来解决对生态问题的更强大和统一方法的需求(这是什么样的熊?),分配映射(在哪里?),以及与生态学有关的其他任务。该工具也可以用作与生态建模有关的大型研究的起点,科学家可能用来预测动植物种群的转变,气候变化的影响或人类活动对生态系统的影响。
Hannah P. Gideon, 1 , 2 , 23 Travis K. Hughes, 3 , 4 , 5 , 23 Constantine N. Tzouanas, 3 , 4 , 5 , 23 Marc H. Wadsworth II, 3 , 4 , 5 , 6 Ang Andy Tu, 7 Todd M. Gierahn, 7 Joshua M. Peters, 4 , 7 Forrest F. Hopkins, 4 , 8 Jun-Rong Wei, 4 , 8 Conner Kummerlowe, 9 Nicole L. Grant, 1 Kievershen Nargan, 10 Jia Yao Phuah, 1 H. Jacob Borish, 1 Pauline Maiello, 1 Alexander G. White, 1 Caylin G. Winchell, 1 , 2 , 11 Sarah K. Nyquist, 3 , 4 , 5 , 9 , 12 Sharie Keanne C. Ganchua, 1 Amy Myers, 1 Kush V. Patel, 1 Cassaundra L. Ameel, 1 Catherine T. Cochran, 1 Samira Ibrahim, 3 , 4 , 5 Jaime A. Tomko, 1 Lonnie James Frye, 1 Jacob M. Rosenberg, 4 , 8 , 13 Angela Shih, 13 Michael Chao, 4 , 8 Edwin Klein, 14 Charles A. Scanga, 1 , 2 Jose Ordovas-Montanes, 4 , 5 Bonnie伯格(Berger),约书亚·T·马蒂拉(Joshua T. Shalek 3,4,5,6,6,18,24,25, * 1微生物学和分子遗传学系,匹兹堡大学医学院,宾夕法尼亚州匹兹堡,宾夕法尼亚州匹兹堡研究中心,匹兹堡,宾夕法尼亚州匹兹堡大学,美国宾夕法尼亚州匹兹堡大学,美国3号宾夕法尼亚州匹兹堡大学3.哈佛大学,马萨诸塞州剑桥,美国5麻省理工学院和哈佛大学,马萨诸塞州剑桥市6美国6化学系,马萨诸塞州理工学院,马萨诸塞州剑桥市,美国7 7生物工程系),sfortune@hsph.harvard.edu(S.M.F.美国马萨诸塞州波士顿,马萨诸塞州波士顿公共卫生学院9计算与系统生物学计划,马萨诸塞州技术研究所,美国马萨诸塞州剑桥市,美国10号非洲卫生研究所,南非德班,南非,肺部,过敏和重症监护医学司,匹兹堡大学,匹兹堡大学,匹兹堡,帕特斯堡,帕特斯堡,帕特斯堡,帕特斯堡,帕特斯堡,美国12级计算机。美国马萨诸塞州剑桥市技术,13美国马萨诸塞州马萨诸塞州马萨诸塞州综合医院,美国马萨诸塞州波士顿,美国14号实验室动物研究部,匹兹堡大学,匹兹堡宾夕法尼亚州匹兹堡大学15美国匹兹堡,匹兹堡大学匹兹堡大学的传染病学系,美国15南非德班,纳塔尔17化学工程系,马萨诸塞州剑桥,马萨诸塞州剑桥市,美国马萨诸塞州剑桥研究所18宾夕法尼亚州剑桥市的马萨诸塞州综合癌症研究所,马萨诸塞州科技研究所19 of KwaZulu-Natal, Durban, South Africa 21 Department of Infection and Immunity, University College London, London, UK 22 Department of Microbiology and Physiological Systems, University of Massachusetts Medical School, Worcester, MA, USA 23 These authors contributed equally 24 These authors contributed equally 25 Lead contact *Correspondence: joanne@pitt.edu (J.L.F.),shalek@mit.edu(A.K.S。)https://doi.org/10.1016/j.immuni.2022.04.004
摘要 - 预测衰老个体临床下降的轨迹是一个紧迫的挑战,尤其是对于患有轻度认知障碍,阿尔茨海默氏病,帕金森氏病或血管性痴呆症患者而言。准确的预测可以指导治疗决策,确定风险因素并优化临床试验。在这项研究中,我们比较了在临床痴呆率评级量表“盒子总和”评分(SOBCDR)中,在2年间隔内进行了两种深度学习方法。这是痴呆症研究中的关键指标,评分范围从0(无损害)到18(严重损害)。为了预测下降,我们训练了一个混合卷积神经网络,该网络将3D T1加权的脑MRI扫描与表格临床和人口统计学特征(包括年龄,性别,体重指数(BMI)和基线SOBCDR)相结合。我们针对Autogluon进行了基准测试,Autogluon是一个自动化的多模式学习框架,选择了适当的神经网络体系结构。我们的结果证明了将图像和表格数据组合在临床应用预测建模中的重要性。深度学习算法可以融合基于图像的大脑特征和表格临床数据,并具有衰老和痴呆症的个性化预后。
自动驾驶汽车(AVS)需要可靠的交通标志识别和健壮的车道检测功能,以确保在复杂和动态的环境中实现安全的导航。本文介绍了一种综合方法,结合了先进的深度学习技术和多模式大型语言模型(MLLMS),以实现全面的道路。对于交通标志识别,我们系统地评估了Resnet-50,Yolov8和RT-Det,在Resnet-50中以99.8%的状态效果达到99.8%,Yolov8的精度为98.0%,尽管具有较高的计算机复杂性,但在RT-DECT上的精度达到了96.6%的精度。对于车道检测,我们提出了一种基于CNN的分割方法,通过多项式曲线拟合增强了,该方法在有利条件下肝脏高精度。更重要的是,我们引入了一个轻巧的,多模式的,基于LLM的框架,该框架直接进行了调整的指令,以调整您的小而多样化的数据集,从而消除了对Intial预处理的需求。该框架有效地处理了各种车道类型,复杂的交叉点和合并区域,可以通过不利条件下的推理来提高车道检测可靠性。尽管有限制可用的培训资源,但我们的多模式方法表明了高级推理能力,达到了53.87%的所有准确性(FRM),这一问题总体上是82.83%的总体确保(QNS),在清晰的条件下,泳道的检测准确性为99.6%,在夜间和93.0%的情况下为93.0%的雨水,以及8.0%的雨水,以及8.8的范围。道路退化(95.6%)。拟议的综合框架显着增强了AV感知的可观性,从而极大地促进了在各种和充满挑战的道路方案中更安全的自主驾驶。
