摘要 从大脑活动重建复杂而动态的视觉感知仍然是机器学习应用于神经科学的一大挑战。在这里,我们介绍了一种从非常大的单参与者功能性磁共振数据重建自然图像和视频的新方法,该方法利用了图像到图像转换网络的最新成功。这是通过利用从整个视觉系统的视网膜主题映射中获得的空间信息来实现的。更具体地说,我们首先根据其对应的感受野位置确定特定感兴趣区域中的每个体素在视野中代表什么位置。然后,将视野上大脑活动的 2D 图像表示传递给完全卷积的图像到图像网络,该网络经过训练以使用带有对抗性正则化的 VGG 特征损失恢复原始刺激。在我们的实验中,我们表明我们的方法比现有的视频重建技术有了显着的改进。
从大脑活动中重建复杂而动态的视觉感知仍然是机器学习应用于神经科学的一大挑战。在这里,我们提出了一种新方法,用于从非常大的单参与者功能性磁共振成像数据中重建自然图像和视频,该方法利用了图像到图像转换网络的最新成功。这是通过利用从整个视觉系统的视网膜主题映射中获得的空间信息来实现的。更具体地说,我们首先根据其对应的感受野位置确定特定感兴趣区域中的每个体素在视野中代表什么位置。然后,将视野上大脑活动的 2D 图像表示传递给完全卷积的图像到图像网络,该网络经过训练以使用带有对抗性正则化的 VGG 特征损失恢复原始刺激。在我们的实验中,我们表明我们的方法比现有的视频重建技术有了显着的改进。
图像字幕(自动生成图像的描述标题的任务)由于其潜力弥合视觉和语言理解之间的差距而引起了极大的关注。随着深度学习的进步,尤其是用于序列产生的特征提取和复发神经网络(RNN)的卷积神经网络(CNN),神经图像标题发生器在产生的字幕的质量和流利程度上都取得了重大进展。本文调查了图像字幕技术的演变,从传统模型到现代深度学习方法,包括使用变压器和多峰模型。我们讨论了关键组件,例如图像表示,字幕生成和注意机制,并检查大规模数据集和评估指标的作用。尽管取得了长足的进步,但在语义理解,上下文相关性和处理偏见等领域仍存在挑战。这项调查以研究目前的研究状态并概述了该领域的潜在方向,包括探索零射击学习,多模式集成以及改善字幕模型的概括。
计算机图形学 AlphaFold 是一个神经网络,它通过将蛋白质结构建模和预测为 3D 空间中的图推理问题来创建高精度的 3D 蛋白质结构 14,其中附近的残基定义图的边缘。对表示被编码为图中的有向边(即残基之间的连接)。 NVIDIA Canvas 应用程序 GauGAN 实时将“海浪拍打海滩上的岩石”等文本短语转换为虚拟风景图像。当添加形容词(如“岩石海滩上的日落”)或将“日落”替换为“下午”或“下雨天”时,模型会立即修改图片。 15 类似地,DALL•E 是 GPT-3 的编译版本,它以文本/图像对为输入,根据用自然语言表达的概念的文本描述生成图像。 16 最新的基于 GDM 的文本到图像生成方法是 DALL•E 2 16,17 和 Imagen 18,它们分别能够生成多样化、高质量的艺术和逼真图像。3D-GAN 创建 3D 形状 19,可以在 3D 空间中操作(几何变换),然后缩小到 2D 图像表示。
深度神经网络 (DNN) 的几何描述有可能揭示神经科学中计算模型的核心原理,同时抽象出模型架构和训练范例的细节。在这里,我们通过量化其自然图像表示的潜在维数来检查视觉皮层的 DNN 模型的几何形状。一种流行的观点认为,最佳 DNN 将其表示压缩到低维子空间以实现不变性和鲁棒性,这表明更好的视觉皮层模型应该具有低维几何形状。令人惊讶的是,我们发现了一个相反方向的强烈趋势——在预测猴子电生理学和人类 fMRI 数据中对伸出刺激的皮层反应时,具有高维图像子空间的神经网络往往具有更好的泛化性能。这些发现适用于 DNN 的各种设计参数,它们提出了一个普遍原则,即高维几何形状为视觉皮层的 DNN 模型带来了显著的好处。
深神经网络(DNN)的几何描述有可能发现神经科学中计算模型的核心代表原理。在这里,我们通过量化其自然图像表示的潜在维度来检查视觉皮层的DNN模型的几何形状。流行的观点认为,最佳DNNS将其表示形式压缩到低维子空间以实现不变性和鲁棒性,这表明更好的视觉皮层模型应具有较低的维几何形状。令人惊讶的是,我们发现相反方向的强烈趋势 - 具有高维图像子空间的神经网络在预测猴子电生理学和人类FMRI数据中对持有刺激的皮质反应时倾向于具有更好的概括性能。此外,我们发现,在学习新的刺激类别时,高维度与更好的性能相关,这表明更高的维度表示更适合于概括其训练领域。这些发现提出了一个一般原则,高维几何形状赋予了视觉皮层DNN模型的计算益处。
与传统数据处理系统相比,量子图像处理因其更快的数据计算和存储速度而备受关注。将传统图像数据转换为量子域和状态标签准备的复杂性仍然是一个具有挑战性的问题。现有技术通常直接连接像素值和状态位置。最近,EFRQI(量子图像的有效灵活表示)方法使用辅助量子位,通过 Toffoli 门将表示像素的量子位连接到状态位置量子位以减少状态连接。由于每个像素连接使用两次 Toffoli 门,因此仍然需要大量位来连接每个像素值。在本文中,我们提出了一种新的 SCMFRQI(状态连接修改 FRQI)方法,通过使用重置门修改状态连接而不是重复使用相同的 Toffoli 门连接作为重置门来进一步减少所需的位数。此外,与其他现有方法不同,我们使用块级压缩图像以进一步减少所需的量子位。实验结果证实,所提出的方法在图像表示和压缩方面均优于现有方法。
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
量子技术利用量子力学来推进通信和加密技术 (Abd-El-Atty 等人,2018 年)。当前的通信还可能包括共享包含敏感信息的图像。确保私人记录的安全以防止滥用非常重要,而多媒体数据的保护是一项重大挑战。此外,量子图像加密仍然是保证此操作的最佳技术之一 (Naseri 等人,2018 年)。对于量子加密,量子图像表示是重要的一步,它允许使用量子态表示图像数据 (J. Wang 等人,2019 年)。量子图像的几种量子表示形式已经建立:量子位晶格 (Venegas-Andraca & Bose, 2003)、FRQI (Le et al., 2011)、NAQSS (Li et al., 2014)、SQR (Yuan et al., 2014)、QUALPI (Zhang, Lu, Gau, & Xu, 2013)、NEQR (Zhang, Lu,高和王,2013)、MCQI(Sun 等人,2013)、GNEQR(Li、Fan 等人,2019)、NCQI(Sang 等人,2017)、QRCI(Wang L. 等人,2019)、QRMW(Şahi̇N 和 Yilmaz,2018)、QMCR(Abdolmaleky 等人) al., 2017)、OQIM (Liu et al., 2019)、DRQCI (Wang L. et al., 2020) 和其他 (Su et al., 2020)。
最近,人们对诊断开发性疾病(DP)(Burns,2024; Burns等,2023; Degutis&Campbell,2024; Degutis et al。,2023; Gerlach et al。,2024; Lowes等,2024; Lowes et al。,2024)。Several topics have been discussed, including how much prevalence rates of DP vary depending on inclusion cut-offs ( DeGutis et al., 2023 ), whether self-report data should weigh more than objective test scores ( Burns et al., 2023 ; 2024 ), how correlation between tests can bias prev- alence estimates ( Gerlach et al., 2024 ), and how response time data can improve diagnostic sensitivity ( Lowes等人,2024)。在这里,我们添加了有关排除标准的讨论,该讨论可用于排除面部识别术的替代解释。我们关注我们收集数据的两个标准,即中级视觉删除(即,与“低级”图像表示和“高级”对象和场景的“高级”解释联系起来的中间视觉过程的麻烦)和自闭症特征,并且我们在1479人中估算了他们的预期,以估算他们的预期,他们可以自我诊断为自我诊断的人,他们会自我诊断为您的自我诊断。取决于纳入标准,7 E 11%的DP可能出现中级视觉效果,14 E 21%