摘要。在本文中,我们引入了一个新的生成模型,即无自动编码器(DolfIN)的扩散布局变压器,该变压器在现有方法上可显着提高建模能力和透明度。Dolfin采用基于变压器的扩散过程来建模布局生成。除了有效的双向(非因果关节)序列表示外,我们还设计了一种自回归扩散模型(Dolfin-ar),该模型尤其擅长捕获邻居对象的丰富局部语义相关性,例如对齐,大小和重叠。在对标准的无条件布局生成基准进行评估时,Dolfin尤其优于各种指标的先前方法,例如FID,对齐,重叠,Maxiou和DocSim分数。此外,Dolfin的应用程序不仅仅是布局生成,因此它适用于对其他类型的几何结构(例如线段)进行建模。我们的实验既提出了定性和定量结果,以证明Dolfin的优势。
。cc-by-nc-nd 4.0国际许可证是根据作者/资助者提供的,他已授予Medrxiv的许可证,以永久显示预印本。(未通过同行评审认证)
摘要 - 采用人工智力来创建高度逼真的合成媒体,对隐私,安全性和错误信息传播构成了重大威胁。传统的深层检测方法,主要基于电流神经网络(CNN),通常在有效地识别这些复杂的伪造方面掉落。本项目探讨了平行视觉变压器(PVIT)用于深泡探测器的使用,利用其高级功能在建模复杂模式和视觉数据中的长距离依赖性中进行建模。我们使用NVIDIA A100 GPU的Google Colab培训了由140K真实和假面的数据集培训了PVIT模型。我们的结果表明,PVIT可显着提高检测准确性,精度,召回和鲁棒性,提供有希望的解决方案,以打击达到91.92精度的DeepFake技术所带来的挑战。索引术语 - 深层检测,平行视觉变形,以前,AI生成的,伪造的内容识别,变换,网络安全,数字取证,机器学习,深度学习。
摘要 - 射血分数的左心室是心脏功能最重要的度量之一。心脏病专家使用了有资格延长延长疗法的患者。但是,对射血传输的评估遭受观察者间变异性的影响。为了克服这一挑战,我们提出了一种基于层次视觉变压器的深度学习方法,以估计超声心动图视频的射血分数。所提出的方法可以估计射血分数,而无需首先左静脉分割,使其比其他方法更有效。我们在Echonet-Dynamic数据集上评估了我们的方法5。59,7。 59和0。 59,用于MAE,RMSE和R 2分。 与最新方法,超声视频变压器(UVT)相比,此结果更好。 源代码可在https://github.com/lhfazry/ultraswin上找到。 索引术语 - 心电图,心脏射血分数,Ultraswin,视觉变压器,echonet-Dynamic59,7。59和0。59,用于MAE,RMSE和R 2分。与最新方法,超声视频变压器(UVT)相比,此结果更好。源代码可在https://github.com/lhfazry/ultraswin上找到。索引术语 - 心电图,心脏射血分数,Ultraswin,视觉变压器,echonet-Dynamic
扩散模型从噪声中创建数据(Song等,2020)。他们经过训练,可以将数据的向前路径逆转到随机噪声,因此,可以使用神经网络的近似和泛化特性,可用于生成训练数据中不存在的新数据点,但遵循训练数据的分布(Sohl-Dickstein等人。,2015年; Song&Eron,2020)。这种生成建模技术已被证明非常有效地对高维,感知数据(例如图像)进行建模(Ho等人,2020)。近年来,扩散模型已成为产生具有令人印象深刻概括能力的自然语言输入的高分辨率图像和视频的事实方法(Saharia等人,2022b; Ramesh等。,2022; Rombach等。,2022; Podell等。,2023; Dai等。,2023; Esser等。,2023; Blattmann等。,2023b; Betker等。,2023; Blattmann等。,2023a; Singer等。,2022)。由于其迭代性质和相关的计算成本以及推理期间的较长采样时间,对这些模型进行更多有效训练的制剂的研究和/或更快的采样速度有所增加(Karras等人,2023;刘等。,2022)。
Vision Transformer 在包含数百万张图像的数据集上进行训练或预训练后,可以为图像分类任务提供出色的准确率,并且与卷积神经网络相比可以节省计算资源。受潜在准确率提升和计算资源节省的驱动,我们研究了用于加速磁共振图像重建的 Vision Transformer。我们表明,当在 fastMRI 数据集(一种仅包含数千张图像的流行加速 MRI 数据集)上进行训练时,针对图像重建量身定制的 Vision Transformer 可实现与 U-net 相当的重建准确率,同时享受更高的吞吐量和更少的内存消耗。此外,由于众所周知 Transformer 在进行大规模预训练时表现最佳,但 MRI 数据的获取成本高昂,我们提出了一种简单而有效的预训练方法,它完全依赖于大型自然图像数据集,例如 ImageNet。我们表明,对 Vision Transformer 进行预训练可显著提高加速 MRI 的训练数据效率,并增强对解剖结构变化的鲁棒性。在仅有 100 张 MRI 训练图像可用的条件下,预训练的 Vision Transformer 实现的图像质量明显优于预训练的卷积网络和当前最先进的技术。我们的代码可在 https://github.com/MLI-lab/transformers_for_imaging 上找到。关键词:加速 MRI、Transformer、预训练、图像重建
。cc-by-nc-nd 4.0国际许可证可永久提供。是作者/资助者,他已授予Medrxiv的许可证,以显示预印本(未经同行评审证明)的预印本版权持有人的此版本发布于2025年2月16日。 https://doi.org/10.1101/2024.06.07.24308553 doi:medrxiv preprint
我们使用 Transformer [10] 来处理生理信号。Transformer 最初是为自然语言处理 (NLP) 任务开发的,目的是处理单词序列。鉴于生理信号是值序列,Transformer 可以适用于生理信号处理 [11]。Transformer 采用学习到的注意机制,根据上下文动态评分输入不同部分的相关性。基于注意的处理适合处理生理信号,因为根据任务和上下文,信号的某些部分可能比其他部分传达更多信息。使用 Transformer 的另一个好处是,我们可以从 BERT [12] 中描述的非常成功的预训练技术中受益,该技术是为 NLP 任务开发的,我们可以根据需要进行调整。这种预训练策略已成功应用于其他领域,如计算机视觉 [13]、语音处理 [14] 和情感计算 [15]。
变形金刚对自然语言处理产生了重大影响,最近证明了它们在计算机视觉中的潜力。他们在基本的计算机视觉任务中显示了卷积神经网络的有希望的结果。然而,科学界并未完全掌握视觉变形金刚的内部运作,也没有做出决策的基础,这强调了解释性方法的重要性。了解这些模型如何做出决定不仅可以改善其绩效,还可以建立对AI系统的信任。本研究探讨了为视觉变压器提出的不同解释性方法,并提出了根据其动机,结构和应用方案组织它们的分类法。此外,它提供了对评估标准的全面审查,可用于比较解释结果以及解释性工具和框架。最后,本文重点介绍了可以增强视觉变形金刚的解释性的基本但未开发的方面,并建议有前途的研究方向以进行未来的投资。关键字:解释性,视觉变压器,VIT,注意力,修剪。
本文提出了一种针对GPT-Neo量身定制的逐步知识丰富的新方法,解决了在不进行全面培训的情况下使用最新信息进行更新的大型语言模型(LLMS)的挑战。我们引入了一种动态链接机制,该机制可以实时整合不同的数据源,从而增强了模型的准确性,及时性和相关性。通过严格的评估,我们的方法证明了几个指标的模型性能的显着改善。该研究为AI中最紧迫的问题之一贡献了可扩展且有效的解决方案,这可能会彻底改变LLM的维护和适用性。发现强调了创建更自适应,响应和可持续的生成模型的可行性,为该领域的未来进步开辟了新的途径。