比利时B卢文,鲁芬,比利时B成像与病理学系,鲁芬,比利时C林文,C妇科科学系,荷兰癌症研究所,荷兰荷兰癌症研究所,安东尼·范·李温霍克,阿姆斯特丹,荷兰河畔阿克西米群岛的阿姆斯特丹脑中心,纽约生物医学工程与成像科学学院,国王学院伦敦,伦敦,英国,伦敦,电气工程系,ESAT/PSI,KU LEUVEN,LEUVEN,BELGIUM G放射学系,大学医院Leuven,Leuven,Leuven,Belgium h Neuursciences,Kuuven,Belgium Hospitors,Leuven,Gyum I Sectrict and Gyum Inscorice and Gyum Introwict and Gyum Insuctim an比利时J卢文开发与再生系,单位妇女和儿童,鲁芬,鲁汶,比利时K级妇科肿瘤学中心阿姆斯特丹,荷兰癌症研究所和大学医学中心,荷兰阿姆斯特丹比利时B卢文,鲁芬,比利时B成像与病理学系,鲁芬,比利时C林文,C妇科科学系,荷兰癌症研究所,荷兰荷兰癌症研究所,安东尼·范·李温霍克,阿姆斯特丹,荷兰河畔阿克西米群岛的阿姆斯特丹脑中心,纽约生物医学工程与成像科学学院,国王学院伦敦,伦敦,英国,伦敦,电气工程系,ESAT/PSI,KU LEUVEN,LEUVEN,BELGIUM G放射学系,大学医院Leuven,Leuven,Leuven,Belgium h Neuursciences,Kuuven,Belgium Hospitors,Leuven,Gyum I Sectrict and Gyum Inscorice and Gyum Introwict and Gyum Insuctim an比利时J卢文开发与再生系,单位妇女和儿童,鲁芬,鲁汶,比利时K级妇科肿瘤学中心阿姆斯特丹,荷兰癌症研究所和大学医学中心,荷兰阿姆斯特丹比利时B卢文,鲁芬,比利时B成像与病理学系,鲁芬,比利时C林文,C妇科科学系,荷兰癌症研究所,荷兰荷兰癌症研究所,安东尼·范·李温霍克,阿姆斯特丹,荷兰河畔阿克西米群岛的阿姆斯特丹脑中心,纽约生物医学工程与成像科学学院,国王学院伦敦,伦敦,英国,伦敦,电气工程系,ESAT/PSI,KU LEUVEN,LEUVEN,BELGIUM G放射学系,大学医院Leuven,Leuven,Leuven,Belgium h Neuursciences,Kuuven,Belgium Hospitors,Leuven,Gyum I Sectrict and Gyum Inscorice and Gyum Introwict and Gyum Insuctim an比利时J卢文开发与再生系,单位妇女和儿童,鲁芬,鲁汶,比利时K级妇科肿瘤学中心阿姆斯特丹,荷兰癌症研究所和大学医学中心,荷兰阿姆斯特丹
摘要 本文探讨了人工智能生成的图像中再现的意识形态,特别关注痴呆症的表现。利用文本到图像的人工智能模型 Stable Diffusion 1.4 版,我们对 171 张以“痴呆症”为文本提示生成的图像进行了多模态批判性话语分析。我们的分析旨在通过将这些图像与现有的痴呆症多模态表现进行比较,识别和情境化生成的图像中的视觉话语。除了观察到视觉多样性的普遍缺乏(过多的老年人和浅肤色的人)之外,我们还发现这些图像倾向于通过回收现有的、围绕该综合症的突出视觉话语来描绘痴呆症,包括对疾病的生物医学关注、失落的叙述和痴呆症作为“活着的死亡”。这些视觉话语与特定的符号选择相结合,促进了观看者和痴呆症患者之间的情感距离。总的来说,这项研究强调了人工智能生成的图像强化和放大有害刻板印象和偏见的可能性。这项研究不仅展示了此类意象的意识形态意义,以及因此需要通过(多模态)批判性话语分析家对其进行批判性审视,还强调了在人工智能设计和使用过程中需要考虑道德问题,包括开发更加多样化和包容性的训练数据集。
近年来,煽动性或误导性的“假”新闻内容泛滥已变得越来越普遍。同时,使用 AI 工具生成描绘任何可以想象到的场景的逼真图像也变得比以往任何时候都更容易。将这两者结合起来——AI 生成的假新闻内容——尤其有害且危险。为了打击 AI 生成的假新闻的传播,我们提出了 Mi-RAGeNews 数据集,这是一套包含 12,500 个高质量真实和 AI 生成的图像-字幕对的数据集,这些图像-字幕对均来自最先进的生成器。我们发现我们的数据集对人类(60% F-1)和最先进的多模态 LLM(< 24% F-1)都构成了重大挑战。使用我们的数据集,我们训练了一个多模态检测器(MiRAGe),与来自域外图像生成器和新闻发布商的图像-字幕对的最新基线相比,其 F-1 提高了 +5.1%。我们发布代码和数据以帮助未来检测人工智能生成的内容。1
主题包括但不限于:• 整合结构、分子和功能信息的多模态成像• 多模态显微成像• 2D、3D、4D 断层扫描和/或多光谱成像(从 UV-VIS 到 SWIR)• 应用于光学成像的成像分析和/或图像处理技术(例如可视化、分割、配准)• 基于机器学习和深度学习的图像形成和数据分析• 用于图像重建/融合的人工智能和机器学习• 多模态成像仪器和系统设计• 可为临床和临床前成像提供更好的定量和/或诊断洞察的检测和诊断分析技术(例如定量测量方法、计算机辅助诊断)• 用于将光学成像与其他成像模式(例如 MR、X 射线、PET)相结合的成像分析和/或图像处理技术• 可能有助于将光学成像引入临床的图像分析、计算方法和重建方法(复杂数据集的视觉渲染、辅助光学重建的新算法)• 这些新技术的临床评估(图像数据的生理和功能解释、视觉感知和观察者表现,体内光学特征定量评估的验证
第 3 章:空中交通管制员视觉搜索模式及控制策略特征...................................................................................................................................... 15
摘要:无论是降雪、火山灰还是罢工,危机事件都会给航空运输系统和社会带来高昂的成本。航空公司已经逐渐学会通过诸如用于交通和机场离港管理的协同决策 (CDM) 等程序来缓解此类事件引起的不正常运营;然而,在困难时期,乘客的门到门旅程往往仍然不愉快。元 CDM (多式联运、机场高效交通和协同决策) 旨在采取以乘客为中心的方法,研究空侧和陆侧 CDM 如何与其他交通方式相互关联,以最大限度地减少严重中断的影响。在本文中,我们通过记录机场 CDM 的最新进展、调查代表性中断事件和研究机场多式联运的发展条件,对过去以乘客为中心的运营的成功和失败进行了初步分析。此外,由于任何新概念的成功或失败都取决于评估它的指标,我们还讨论了相关 KPI 的必要性,以衡量扩展的 CDM 概念的成功。
多模态学习研究的核心在于有效利用多模态之间的融合表示。然而,现有的双向跨模态单向注意力只能利用从一个源到一个目标模态的模态间相互作用。在模态数量有限且交互方向固定的情况下,这确实无法释放多模态融合的全部表达能力。在本文中,提出了多路多模态变换器(MMT),通过单个块而不是多个堆叠的跨模态块同时探索每个模态的多路多模态互相关。MMT 的核心思想是多路多模态注意力,其中利用多种模态来计算多路注意张量。这自然有利于我们开发全面的多对多多模态交互路径。具体而言,多路张量由多个相互连接的模态感知核心张量组成,这些核心张量由模态内交互组成。此外,张量收缩操作用于研究不同核心张量之间的模态间依赖关系。本质上,我们基于张量的多路结构允许将 MMT 轻松扩展到与任意数量的模态相关的情况。以 MMT 为基础,进一步建立分层网络,以递归方式将低级多路多模态交互传输到高级交互。实验表明,MMT 可以实现最先进或相当的性能。
抽象扩散模型最近成为强大的生成模型,在跨域中产生了高保真样本。尽管如此,他们仍面临两个关键挑战,包括改善时必的迭代生成过程以及控制和控制生成过程。现有的调查提供了扩散模型进步的广泛概述。但是,它们缺乏全面的覆盖范围,专门针对可控生成的技术。本调查旨在通过在扩散模型中对可控生成进行全面且连贯的审查来解决这一差距。我们为扩散模型提供了定义受控生成的详细分类学。可控的生成是根据公式,方法和评估指标分类的。通过列举用于增强控制的方法的方法范围,我们旨在将可控的扩散生成作为一个独特的子场保证专用焦点。在这项调查中,我们将最新结果与之相关,提供了对控制可容纳扩散模型产生的专门处理,以及大纲限制和未来的方向。为了证明适用性,我们突出显示了用于主要计算机视觉任务应用程序的可控扩散技术。通过巩固可控扩散模型的方法和应用,我们希望能在可靠且可扩展的可控生成中催化进一步的创新。
数字:a)用于临床,人口统计学和生存特征的分布。蓝色说明了真实数据,而红色说明了综合数据。b)经常突变的基因和染色体异常的频率。c)基因和/或细胞遗传学异常之间的成对关联。d)从合成H&E和MGG合成组织学图像中提取的形态特征的PCA。e)比较真实和合成的H&E和MGG图像。f)实际和合成的RNA-seq数据的比较。g)在真实和合成样本中比较读取的读数。h)基因的比较读取真实和合成数据的计数。i)使用合成多模式数据的XGBoost分类模型的实验设置。j)使用合成多模式数据的多模式深度学习框架的实验设置。k)Juno的概述:多模式合成数据生成平台。
随着人工智能技术的快速发展,多模式学习已成为各种应用程序中数据处理和分析的强大范式,包括自主机器人和车辆[1]和大型语言模型[2]。通过整合来自各种模式的数据,多模式学习增强了AI系统的鲁棒性和适应性,从而提高了性能,并具有更大的能力,可以有效地解决现实世界中的Challenges。多模式学习的一种显着应用是在官方驾驶中,它使自动驾驶汽车(AVS)能够使用多种数据源(例如摄像头,LIDAR,雷达,雷达和超声传感器)来解释和响应其环境。这种不同数据类型的集成使机器的感知和决策更加准确,增强了车辆检测和理解对象,预测其运动并安全地驾驶复杂驾驶场景的能力。使用不同方式中包含的信息,AV可以实现更大的鲁棒性和可靠性,降低事故的风险,并改善各种和动态驾驶条件下的整体性能。AV传感器会生成大量数据[3],根据传感器配置,每秒可能达到40千兆位(GBPS)。必须实时处理和分析这些数据,这需要大量能量,进而减少车辆的范围[4]。因此,无论是在板载处理还是使用未来的低延迟通信[5]来减少数据量,无论是在机载处理还是计算偏移到云服务上。因此,有效的压缩