立体图像超分辨率(Sterereosr)近年来引起了人们的关注,这是由于手机,自动驾驶汽车和机器人的双重摄像头广泛范围。在这项工作中,我们根据Swinir的扩展(最初是为单个图像还原设计的,又提出了一种名为SWINFSR的新定单方法,以及Fast Fourier卷积(FFC)获得的频域知识。具体来说,为了有效地收集全球信息,我们通过使用FFC明确地不明显地局限于SWINIR中的残留SWIN变压器块(RSTBS),并使用结果域知识,并采用结果的残留Swin傅立叶型跨前块(RSFTB)进行特征提取。此外,为了有效,准确的立体视图融合,我们提供了一个新的跨意见模块,称为RCAM,该模块的竞争性能高于竞争性能,同时比最先进的交叉意见模块更少的计算成本。广泛的实验结果和消融研究证明了我们提出的SWINFSR的有效性和效率。
扩散模型是生成时期的当前最新模型,它通过将生成过程分解为许多细粒度的排除步骤,从而综合了高质量的图像。尽管其性能良好,但扩散模型在计算上还是需要许多Neu-ral功能评估(NFES)。在这项工作中,我们提出了一种基于扩散的方法,该方法在完成前在任意时间停止时可以生成可行的图像。使用现有的预处理扩散模型,我们表明可以将生成方案重新组成为两个嵌套扩散过程,从而可以快速迭代的迭代细化。在实验和基于稳定的基于扩散的文本对图像生成的实验中,我们在定性和定量上都表明,我们的方法的相互作用质量大大超过了原始扩散模型的质量,而最后一代结果仍然可比。我们说明了嵌套扩散在多种设置中的适用性,包括用于求解逆概率,以及在整个采样过程中允许用户干预,用于快速基于文本的内容创建。1
卷积神经网络(CNN)在培训数据集代表预期在测试时遇到的变化时,可以很好地解决监督学习问题。在医学图像细分中,当培训和测试图像之间的获取细节(例如扫描仪模型或协议)之间存在不匹配和测试图像之间的不匹配时,就会违反此前提。在这种情况下,CNNS的显着性能降解在文献中有很好的记录。为了解决此问题,我们将分割CNN设计为两个子网络的串联:一个相对较浅的图像差异CNN,然后是将归一化图像分离的深CNN。我们使用培训数据集训练这两个子网络,这些数据集由特定扫描仪和协议设置的带注释的图像组成。现在,在测试时,我们适应了每个测试图像的图像归一化子网络,并在预测的分割标签上具有隐式先验。我们采用了经过独立训练的Denoising自动编码器(DAE),以对合理的解剖分段标签进行模型。我们验证了三个解剖学的多中心磁共振成像数据集的拟议思想:大脑,心脏和前列腺。拟议的测试时间适应不断提供绩效的改进,证明了方法的前景和普遍性。对深CNN的体系结构不可知,第二个子网络可以使用任何分割网络使用,以提高成像扫描仪和协议的变化的鲁棒性。我们的代码可在以下网址提供:https://github.com/neerakara/test- time- aptaptable-neural-near-netural-netural-networks- for- domain-概括。
德国医学图像计算会议(BVM)已在德国的各个地点举行了近30年,现在将在2021年的虚拟活动后首次在Oth Regensburg举行。在内容方面,BVM专注于医学图像数据的计算机辅助分析。应用领域各不相同,例如在成像,诊断,手术计划,计算机辅助干预和可视化领域的领域。在这段时间里,BVM社区在机器学习和人工智能领域中颇有方法论发展和变化 - 特别是在该领域中进行了大量工作。因此,在这种情况下的研究现在主导了BVM。这些范围也有助于在计算机科学和医学之间的接口上建立医学图像处理,以此作为数字健康的关键技术。除了呈现BVM社区的当前研究结果外,BVM的中心位置是年轻研究人员的鼓励。该会议主要是博士候选人的平台,但也是有杰出论文的学生,展示其宗教信仰,与社区进行专业话语,并与其他研究人员进行网络。尽管有许多会议和国会也与医疗图像处理有关,但BVM并没有失去其重要性和吸引力。在内容方面,BVM 2025将再次能够提供有吸引力的顶级级别的程序。最好的论文将在今年再次获得奖品。在94项提交中,28个演示文稿,38个海报贡献和两个软件策略通过双板审核过程接受,每个审查过程都有三个审查。会议网站可以找到:
注释歧义由于固有的数据不确定性,例如医学扫描中的界限模糊以及不同的观察者专业知识和偏好已成为训练基于深度学习的医学图像模型的主要观点。为了解决这个问题,普遍的做法是从不同专家那里收集多个注释,导致多评价医学图像分割的设置。现有的作品旨在将不同的注释合并到“地面真实”中,而在众多医疗环境中通常无法实现,或者产生不同的结果,或产生与个人专家评估者相对应的个性化结果。在这里,我们提出了一个更雄心勃勃的多评价医学图像细分的目标,即遵守多元化和个性化结果。指定,我们提出了一个名为d-persona的两个阶段框架(第一个d iversification,然后是角色lization)。在第I阶段,我们利用多个给定注释来训练一个可能性的U-NET模型,并具有约束损失,以证明预测多样性。以这种方式,在第I阶段建造了一个共同的空间,其中不同的潜在代码表示多样化的专家意见。然后,在第二阶段,我们设计了多个基于注意力的投影头,以适应来自共享潜在空间的相应专家提示,然后执行个性化的医疗图像细分。我们评估了内部鼻咽癌数据集和公共肺结核数据集(即LIDC-IDRI)的拟议模型。我们的代码将在https://github.com/ycwu1997/d-persona上发布。的实验实验表明,我们的D-Persona可以同时获得多元化和个性化的结果,从而实现了多评位者医疗图像细分的新SOTA性能。
与从 LiDAR 数据和多视图影像重建相比,倾斜影像重建是大规模城市建模的重要研究问题和经济解决方案。然而,建筑物足迹和立面的部分不可见性、严重的阴影效应以及大范围区域内建筑物高度的极端变化等若干挑战将现有的基于单目影像的建筑物重建研究限制在某些应用场景中,即从近地面影像建模简单的低层建筑物。在本研究中,我们提出了一种新颖的单目遥感影像 3D 建筑物重建方法,解决了上述困难,从而为更复杂的场景提供了一种有吸引力的解决方案。我们设计了一个多任务建筑物重建网络 MTBR-Net,通过四个语义相关任务和三个偏移相关任务来学习倾斜影像的几何属性、3D 建筑物模型的关键组件及其关系。网络输出通过基于先验知识的 3D 模型优化方法进一步集成,以生成最终的 3D 建筑模型。在公共 3D 重建数据集和新发布的数据集上的结果表明,与目前最先进的方法相比,我们的方法将高度估计性能提高了 40% 以上,将分割 F1 分数提高了 2% - 4%。
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
仿射配准在全面的医学图像配准流程中不可或缺。然而,只有少数研究关注快速而鲁棒的仿射配准算法。这些研究中大多数利用卷积神经网络(CNN)来学习联合仿射和非参数配准,而对仿射子网络的独立性能探索较少。此外,现有的基于 CNN 的仿射配准方法要么关注局部错位,要么关注输入的全局方向和位置来预测仿射变换矩阵,这些方法对空间初始化很敏感,并且除了训练数据集之外表现出有限的通用性。在本文中,我们提出了一种快速而鲁棒的基于学习的算法,即粗到精视觉变换器(C2FViT),用于 3D 仿射医学图像配准。我们的方法自然地利用了卷积视觉变换器的全局连通性和局部性以及多分辨率策略来学习全局仿射配准。我们对 3D 脑图谱配准和模板匹配归一化方法进行了评估。综合结果表明,我们的方法在配准精度、稳健性和通用性方面优于现有的基于 CNN 的仿射配准方法,同时保留了基于学习的方法的运行时优势。源代码可在 https://github.com/cwmok/C2FViT 上找到。
文本对图像(T2I)合成是一项艰巨的任务,该任务是对文本和图像域及其关系进行建模。最近作品实现的图像质量的实质性改进为Nuberon应用程序铺平了道路,例如语言辅助图像编辑,计算机辅助设计,基于文本的图像检索和培训数据增强。在这项工作中,我们提出了一个简单的问题:与逼真的图像一起,我们是否可以以一种不受影响的方式获得任何有用的副产品(例如前景 /背景或多类分割掩码,检测标签,检测标签),这也将使其他计算机视觉任务任务和应用受益?试图回答这个问题,我们探索了从给定文本中的逼真的图像及其相应的前景 /背景分割掩码。为了实现这一目标,我们与GAN一起实验了共进行分割的概念。具体而言,提出了一种名为“共裂”启发的GAN(COS-GAN)的新型GAN结构,该结构同时从不同的噪声矢量中同时生成两个或多个图像,并利用图像特征之间的空间关注机制来生成逼真的分段掩码,以生成生成的Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Agens。这种架构的优点是两倍:1)生成的分割掩码可用于专注于前景和背景,以改善生成的图像的质量,2)分段蒙版可以用作其他任务的训练目标,例如访问本地化和分割。在CUB,Oxford-102和可可数据集上进行的广泛实验表明,Cos-Gan能够改善视觉质量,并为发电图像提供可靠的前景 /背景掩码。
提供给文本对图像差异模型的提示的质量决定了生成的内容对用户意图的忠诚程度,通常需要“及时工程”。要通过及时的工程来利用目标图像的视觉概念,当前方法在很大程度上通过优化然后将它们映射到伪tokens来依赖嵌入反演。然而,使用这种高维矢量表示是具有挑战性的,因为它们缺乏语义和可解释性,并且只允许使用它们时模拟矢量操作。相反,这项工作着重于反转扩散模型,以直接获得可靠的语言提示。这样做的挑战在于,由此产生的优化问题从根本上是离散的,提示的空间呈较大。这使得使用标准优化技术,例如随机梯度下降,困难。为此,我们利用延迟的投影方案来访问代表模型中词汇空间的提示。此外,我们利用了扩散过程的时间段与图像中不同级别的细节相差的发现。后来的,嘈杂的,前传扩散过程的时间段对应于语义信息,因此,此范围内的迅速反转提供了代表图像语义的令牌。我们表明,我们的方法可以确定目标图像的语义可解释和有意义的提示,该提示可用于合成具有相似内容的多样化图像。我们说明了优化提示在进化图像生成和概念删除中的应用。
