摘要 本文探讨了人工智能生成的图像中再现的意识形态,特别关注痴呆症的表现。利用文本到图像的人工智能模型 Stable Diffusion 1.4 版,我们对 171 张以“痴呆症”为文本提示生成的图像进行了多模态批判性话语分析。我们的分析旨在通过将这些图像与现有的痴呆症多模态表现进行比较,识别和情境化生成的图像中的视觉话语。除了观察到视觉多样性的普遍缺乏(过多的老年人和浅肤色的人)之外,我们还发现这些图像倾向于通过回收现有的、围绕该综合症的突出视觉话语来描绘痴呆症,包括对疾病的生物医学关注、失落的叙述和痴呆症作为“活着的死亡”。这些视觉话语与特定的符号选择相结合,促进了观看者和痴呆症患者之间的情感距离。总的来说,这项研究强调了人工智能生成的图像强化和放大有害刻板印象和偏见的可能性。这项研究不仅展示了此类意象的意识形态意义,以及因此需要通过(多模态)批判性话语分析家对其进行批判性审视,还强调了在人工智能设计和使用过程中需要考虑道德问题,包括开发更加多样化和包容性的训练数据集。
主题包括但不限于:• 整合结构、分子和功能信息的多模态成像• 多模态显微成像• 2D、3D、4D 断层扫描和/或多光谱成像(从 UV-VIS 到 SWIR)• 应用于光学成像的成像分析和/或图像处理技术(例如可视化、分割、配准)• 基于机器学习和深度学习的图像形成和数据分析• 用于图像重建/融合的人工智能和机器学习• 多模态成像仪器和系统设计• 可为临床和临床前成像提供更好的定量和/或诊断洞察的检测和诊断分析技术(例如定量测量方法、计算机辅助诊断)• 用于将光学成像与其他成像模式(例如 MR、X 射线、PET)相结合的成像分析和/或图像处理技术• 可能有助于将光学成像引入临床的图像分析、计算方法和重建方法(复杂数据集的视觉渲染、辅助光学重建的新算法)• 这些新技术的临床评估(图像数据的生理和功能解释、视觉感知和观察者表现,体内光学特征定量评估的验证
了解人脑需要结合功能交互模式,这些模式取决于各种特征,如实验设置、定向连接强度或多个个体或群体之间的变异性。除了这些外部因素外,大脑网络还具有内部属性,例如连接的时间传播或仅在信号的不同频率范围内发生的连接模式。可视化涵盖所有必要信息的检测到的网络是一个很大的问题,这主要是因为必须在自然空间环境中的同一视图中集成大量特征。为了解决这个问题,我们提出了一种新工具,可将网络转移到虚拟视觉分析实验室中按解剖学排列的起点-终点视图中。这为用户提供了评估连接模式时间演变的机会,并提供了一种通过虚拟现实 (VR) 中的导航和交互来探索相应特征的直观且激励性的方式。该方法在一项用户研究中进行了评估,其中包括具有神经科学背景的参与者以及在计算机科学领域工作的人员。作为第一个概念验证试验,我们使用了由视觉刺激引起的脑电图记录时间序列衍生的功能性大脑网络。所有参与者都给出了积极的总体反馈,特别是他们认为使用 VR 视图比比较的 2D 桌面版本更有优势。这表明我们的应用程序成功填补了高维大脑网络可视化的空白,值得进一步跟踪和增强所提出的表示方法。© 2022 Elsevier Ltd. 保留所有权利。
人类通过视觉、味觉、听觉、嗅觉和触觉等一系列模式体验生活。这些多种模式通过复杂的神经元连接网络在我们的大脑中整合在一起进行信息处理。同样,人工智能要模仿人类的学习方式并进化到下一代,就应该有效地阐明多模态信息融合。模态是传达有关对象或事件(如图像、文本、视频和音频)的信息的渠道。当研究问题包含来自多种模态的信息时,它被称为多模态。多模态系统涉及一种要查询的数据模式以获得任何(相同或不同的)模态结果,而跨模态系统严格从不同模态中检索信息。由于输入-输出查询属于不同的模态系列,它们的连贯比较仍然是一个悬而未决的挑战,因为它们的形式原始且对内容相似性的定义主观。研究人员提出了许多技术来处理这个问题,并减少不同模态之间的信息检索语义差距。本文重点对跨模态信息检索领域的各种研究工作进行了比较分析。还讨论了几种跨模态表示的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了一些未解决的问题,使研究人员能够更好地理解当前的情况并确定未来的研究方向。
成分。分数越高表示症状严重程度越高 (即越差)。误差线表示自举估计的置信区间。 (c) 与 LC1 相关的显著表面积、厚度、体积载荷(自举重采样和 FDR 校正 q<0.05 后)。 (d) 与 LC1 相关的显著 RSFC 载荷(自举重采样和 FDR 校正 q<0.05 后)。RSFC 载荷经过阈值处理,因此仅显示具有显著自举 Z 分数的网络内或网络间块。网络块遵循与 17 个 Yeo 网络 (Schaefer et al., 2018; Yeo et al., 2011) 和皮层下区域 (Fischl et al., 2002) 相关的颜色。弦图总结了网络内和网络间显著的 RSFC 载荷。有关更详细的网络可视化,另请参见图 1a。DorsAttn,背侧注意力; RSFC,静息状态功能连接;SalVentAttn,显著性/腹侧注意;SomMot,躯体感觉运动;TempPar,颞顶叶。
摘要 — 脑肿瘤是全球最致命的癌症之一,在儿童和老年人中非常常见。早期准确识别肿瘤类型和等级对于选择精准治疗方案起着重要作用。不同序列的磁共振成像 (MRI) 协议为临床医生提供了识别肿瘤区域的重要矛盾信息。然而,由于数据量大且脑肿瘤类型多样,人工评估既耗时又容易出错。因此,MRI 自动脑肿瘤诊断的需求尚未得到满足。我们观察到单模态模型的预测能力有限,其性能在不同模态之间差异很大,而常用的模态融合方法会引入潜在的噪声,导致性能显着下降。为了克服这些挑战,我们提出了一种新的跨模态引导辅助多模态学习,并采用双重注意来解决 MRI 脑肿瘤分级任务。为了平衡模型效率和功效之间的权衡,我们使用 ResNet Mix Convolution 作为特征提取的主干网络。此外,还应用双重注意分别捕获空间和切片维度中的语义相互依赖性。为了促进模态之间的信息交互,我们设计了一个跨模态引导辅助模块,其中主要模态在训练过程中引导其他次要模态,这可以有效地利用不同 MRI 模态的互补信息,同时减轻可能的噪声的影响。在 BraTS2018 和 BraTS2019 数据集上的实验结果证明了所提方法的有效性,其性能大大优于基于单模态的方法和几种最先进的多模态方法,在两个数据集上的 AUC 分别为 0.985 ± 0.019 和 0.966 ± 0.021。
1 美国国立卫生研究院国家癌症研究所癌症研究中心,10 号楼,马里兰州贝塞斯达,20892,美国。2 爱琴海大学计算机工程系,伊兹密尔博尔诺瓦,35100,土耳其。3 不列颠哥伦比亚大学医学院,317 - 2194 健康科学商城,温哥华,BC V6T 1Z3,加拿大。摘要 神经胶质瘤是最常见的脑肿瘤之一。早期检测和分级神经胶质瘤对于提高患者的生存率至关重要。计算机辅助检测 (CADe) 和计算机辅助诊断 (CADx) 系统是必不可少的重要工具,可提供更准确、更系统的结果,从而加快临床医生的决策过程。通过利用各种深度学习模型(例如 CNN)和迁移学习策略(例如微调),图像分类的性能结果提高了准确性,并且提高了有效性,尤其是对于具有相似性的新型大规模数据集。在本文中,我们介绍了一种新方法,该方法结合了机器、深度学习和迁移学习方法的变体,用于在多模态脑肿瘤分割 (BRATS) 2020 数据集上对脑肿瘤(即神经胶质瘤)进行有效的分割和分级。我们将流行且高效的 3D U-Net 架构应用于脑肿瘤分割阶段。我们还利用 23 种不同的深度特征集组合和基于 Xception、IncResNetv2 和 EfficientNet 的机器学习/微调深度学习 CNN 模型,在肿瘤分级阶段使用 4 种不同的特征集和 6 种学习模型。实验结果表明,该方法在 BraTS 2020 数据集上对基于切片的肿瘤分级的准确率为 99.5%。此外,我们的方法与最近的类似研究相比具有竞争力。关键词:神经胶质瘤;神经胶质瘤等级;分割;特征提取;深度学习、集成学习、MRI 分类
电子商务发展迅速,产品促销是指电子商务如何促进消费者的消费活动,决策过程中的需求和计算复杂度是优化电子商务产品线动态定价决策亟待解决的问题。因此,在多模态情感信息识别与分析的前提下,提出了一种基于神经网络的Q学习算法模型,并研究了产品线的动态定价问题。结果表明,通过语音情感识别和图像情感识别的多模态融合,建立多模态融合模型,对消费者的情绪进行分类,并作为理解和分析市场需求的辅助资料。长短期记忆(LSTM)分类器对图像特征提取效果优异,准确率比其他同类分类器高3.92%~6.74%,图像单特征最优模型比语音单特征模型准确率高9.32%。
精确的声道建模对于构建可解释语音处理和语言学的发音表征是必不可少的。然而,声道建模具有挑战性,因为许多内部发音器官被外部运动捕捉技术遮挡。实时磁共振成像 (RT-MRI) 可以测量语音过程中内部发音器官的精确运动,但由于标记方法耗时且计算成本高昂,MRI 的注释数据集大小有限。我们首先使用纯视觉分割方法为 RT-MRI 视频提出一种深度标记策略。然后,我们介绍一种使用音频来改进发声器官分割的多模态算法。我们共同为 MRI 视频分割中的声道建模设定了新的基准,并利用该基准为 75 位说话者的 RT-MRI 数据集发布了标签,将声道的带标签公共 RT-MRI 数据量增加了 9 倍以上。代码和数据集标签可在 rishiraij.github.io/multimodal-mri-avatar/ 找到。索引术语:发音语音、视听感知
