近年来,随着 Transformer 等深度学习技术的飞速发展,深度学习已逐渐融入社会的各个领域,用于处理音频、语言和视觉等各种任务。深度学习有助于减轻医疗负担并解决复杂问题,例如模拟蛋白质折叠。随着强大的 Transformer 模型的不断发展,最近的一个重点领域是开发基础模型,以迈向通用人工智能。DINOv2 是一种最近发布的稳健特征提取模型,作为基础模型,在执行各种医疗任务(例如疾病分类和器官分割)方面取得了良好的效果。在本文中,我们尝试将 DINOv2 编码器集成到不同的模型中,从简单的自动编码器模型到更复杂的卷积 Transformer 模型,以解决更复杂的 MRI 成像图像配准问题。结果表明,DINOv2 在 Transformer 模型中有望用于解决 MRI 配准问题,未来需要研究如何集成 DINOv2 以实现更强大的 MRI 配准特征提取。
摘要 — 医学图像分析经常遇到数据稀缺的挑战。迁移学习在解决此问题的同时还节省了计算资源,是一种有效的方法。最近出现了一些基础模型,例如使用视觉变换器架构的 DINOv2,这为该领域开辟了新的机遇,并引起了人们的极大兴趣。但是,DINOv2 在临床数据上的表现仍需验证。在本文中,我们使用三种临床脑 MRI 数据模式执行了神经胶质瘤分级任务。我们在迁移学习环境中比较了各种预训练深度学习模型(包括基于 ImageNet 和 DINOv2 的模型)的性能。我们的重点是了解冻结机制对性能的影响。我们还在其他三种类型的公共数据集上验证了我们的发现:胸部 X 光检查、眼底 X 光检查和皮肤镜检查。我们的研究结果表明,在我们的临床数据集中,DINOv2 的性能不如基于 ImageNet 的预训练模型,而在公共数据集中,DINOv2 通常优于其他模型,尤其是在使用冻结机制时。在不同任务中,不同大小的 DINOv2 模型的性能相似。总之,DINOv2 适用于医学图像分类任务,特别是对于类似于自然图像的数据。然而,它的有效性可能会因与 MRI 等自然图像有显著差异的数据而有所不同。此外,采用较小版本的模型就足以完成医疗任务,从而节省资源。我们的代码可在 https://github.com/GuanghuiFU/medical dino eval 获得。
当前版本:Vision Transformer(DINOV2)→TOP1精度= 0.73先前版本:卷积神经网络(IV3)→TOP1精度= 0.70
研究兴趣我的研究兴趣在于计算机视觉和机器学习的交集。i最近在多模式生成模型的应用和基本限制上工作,包括多模态大语言模型(MLLM,VLM)和多模式嵌入模型(Clip,dinov2)。我对视频,视觉提示和3D理解特别感兴趣。
机器人手术中的抽象目的深度估计在3D重建,手术导航和增强现实访问中至关重要。尽管基础模型在许多视觉任务中表现出出色的性能,包括深度估计(例如Dinov2),但最近的作品观察到了其在医学和外科域特异性应用中的局限性。这项工作介绍了手术深度估计基础模型的低排名适应性(LORA)。方法我们设计了一种基于基础模型的深度估计方法,称为手术 - 迪诺,这是对内窥镜手术深度估计的Dinov2的低级适应。我们建立洛拉层并将其集成到恐龙中,以适应手术特异性领域知识,而不是传统的调整。在训练期间,我们冻结了Dino Image编码器,该编码器显示出出色的视觉表示能力,仅优化Lora层和深度解码器以整合手术场景的特征。结果,我们的模型在MICCAI挑战数据集上得到了广泛的验证,该数据集是从Da Vinci XI内窥镜手术中收集的。我们从经验上表明,手术迪诺的显着性在内窥镜深度估计任务中的表现优于所有最新模型。进行消融研究的分析表明,我们洛拉层和适应的显着作用的证据。结论手术迪诺(Div)揭示了基础模型成功适应手术领域以进行深度估计。结果有明确的证据表明,对计算机视觉数据集中预训练的权重的零拍预测或幼稚的调整不足以直接在手术域中使用基础模型。
基础模型是对大量数据进行预训练的大型模型。通常可以以最小的努力来适应各种下游任务。但是,由于基础模型通常是在从互联网中提出的图像或文本上进行预培训的,因此它们在植物表型等植物域中的性能受到质疑。此外,完全调整基础模型是耗时的,需要高计算能力。本文研究了植物表型设置和任务的基础模型的有效适应。我们对三个基础模型(MAE,Dino和Dinov2)进行了大量实验,对三个必需的植物表型任务:叶子计数,实例阶段和疾病分类。特别是,预先训练的骨干被冷冻,同时评估了两种不同的调整方法,即适配器调整(使用lora)和解码器调整。实验结果表明,基础模型可以充分地适应植物表型任务,从而产生与针对每个任务的最先进的模型(SOTA)模型相似的性能。尽管在不同任务上表现出很高的传递能力,但在某些情况下,精细调整的基础模型的表现比SOTA任务特定的模型稍差,这需要进一步研究。
预测给定控制动作的未来结果的能力对于物理推理至关重要。然而,这种预测模型通常称为世界模型,已被证明具有挑战性的学习,通常是通过在线政策学习中为特定于任务的解决方案而开发的。我们认为,世界模型的真正潜力在于他们仅使用被动数据来推理和计划各种问题的能力。具体而言,我们要求世界模型具有以下三个属性:1)在离线,预采用的轨迹上进行训练,2)支持测试时间行为优化,3)促进任务无关紧要的推理。为了意识到这一点,我们提出了Dino World Model(Dino-WM),这是一种建模视觉动力学的新方法,没有重建视觉世界。Dino-WM利用了通过Dinov2预先训练的空间贴片特征,从而使其能够通过预测未来的补丁功能来从离线行为轨迹中学习。此设计允许Dino-WM通过动作序列优化实现邻国目标,从而通过将所需的目标贴片特征视为预测目标来促进任务不合时宜的行为计划。我们评估跨各个领域的Dino-WM,包括迷宫导航,桌面推动和粒子操纵。我们的实验表明,Dino-WM可以在测试时间生成零拍的行为解决方案,而无需依赖专家演示,奖励建模或预学的逆模型。值得注意的是,与先前的最新作品相比,Dinowm具有强大的概括能力,适应了多种任务家族,例如任意配置的迷宫,具有多种物体形状的推动操纵和多粒子场景。
基于视觉的操纵政策的基本目标是了解场景并预测相应的3D姿势。一些现有的方法利用2D图像作为输入来直接预测3D末代效果通过增强学习[1、12、21、30、50、83]或模仿学习[6、13、13、18、39、43、43、46、94、98]。尽管这些方法可以有效地处理一系列操纵任务,但它们不完全了解物理世界中的空间关系和3D结构[16,19,67,69,95]。在机器人操作中,3D几何信息对于应对复杂任务至关重要,因为机器人必须感知3D环境,有关几何关系的原因以及具有复杂的空间配置。最近的研究越来越集中于机器人操作任务中3D特征表示的明确提取,可以将其分为两组。一方面,某些方法直接编码点云数据[8、32、49、69、73、86、93],要么训练从头开始训练3D策略模型,要么是对预处理的点云启动器(即PointNetNet ++ [58]和PointNext [59])。然而,大规模机器人3D数据和基础模型的有限可用性限制了其概括性的capabilies。此外,处理3D或体素特征会在现实世界应用中造成大量的计算成本,阻碍可伸缩性和实用性。”为了解决这个问题,我们提出了Lift3D框架,该工作提升了基于变压器的2D基础模型(例如Dinov2 [56]或Clip [61])以构建Ro-Bust 3D操纵策略逐步。另一方面,某些方法涉及转换方式,例如将预验证的2D特征提升为3D空间[22,36,67,78],或将3D点云投影到多视图图像中,以输入2D预审计的模型[23,24,76,89]。尽管在几个下游的射击任务上表现出了有希望的表现,但这些模态转换不可避免地会导致空间信息的丧失,阻碍了机器人的痛苦,以了解3D空间关系。基于上述3D政策的挑战,我们提出了一个问题:“我们可以开发一个3D策略模型,该模型集成了大规模预审计的知识,同时结合了完整的3D空间数据输入?Lift3D的主要见解首先是增强隐式3D机器人代表,然后明确编码点云数据以进行策略模仿学习。对于隐式3D机器人表示,我们设计了一种任务意识的蒙版自动编码器(MAE),该自动编码器(MAE)以自我监督的方式处理2D图像并重建3D地理信息,如图1 A所示)。具体来说,我们利用机器人操作[25,55]的大规模未标记数据集,并利用多模型模型(即剪辑)来根据任务文本描述提取图像注意图。然后将这些注意图回到2D输入中,以引导MAE
