和一个锅的不同)或意图(例如通过刀与使用它进行切割),我们人类可以毫不费力地描绘出与日常生活中日常物体的这种互动。在这项工作中,我们的目标是构建一个可以同样生成合理的手动配置的计算系统。具体来说,我们学习了一个基于扩散的常规模型,该模型捕获了3D相互作用期间手和对象的关节分布。给定一个类别的描述,例如“握着板的手”,我们的生成模型可以合成人手的相对配置和表达(见图1个顶部)。我们解决的一个关键问题是,该模型是什么好的HOI表示。通常通过空间(签名)距离场来描述对象形状,但人的手通常是通过由发音变量控制的参数网格建模的。我们提出了一个均匀的HOI表示,而不是在生成模型中对这些不同的代表进行建模,并表明这允许学习一个共同生成手和对象的3D扩散模型。除了能够合成各种合理的手和物体形状的综合外,我们的扩散模型还可以在跨任务的辅助推理之前作为通用,而这种表示是所需的输出。例如,重建或预测相互作用的问题对于旨在向人类学习的机器人或试图帮助他们的虚拟助手来说是核心重要性。重建的视频重新投影错误)或约束(例如我们考虑了这些行沿着这些行的两个经过深入研究的任务:i)从日常交互剪辑中重建3D手对象形状,ii)鉴于任意对象网格,合成了合理的人类grasps。为了利用学到的生成模型作为推论的先验,我们注意到我们的扩散模型允许在任何手动对象配置给定的(近似)log-likelihood梯度计算(近似)log-likelihoodhoodhood。我们将其纳入优化框架中,该框架结合了先前的基于可能性的指南与特定于任务的目标(例如已知对象网格的合成)推理。虽然理解手动相互作用是一个非常流行的研究领域,但现实世界中的数据集限制了3D中这种相互作用的限制仍然很少。因此,我们汇总了7种不同的现实世界交互数据集,从而导致157个对象类别的相互作用长期收集,并在这些范围内训练共享模型。据我们所知,我们的工作代表了第一个可以共同生成手和对象的生成模型,并且我们表明它允许综合跨类别的各种手动相互作用。此外,我们还经验评估了基于视频的重建和人类掌握合成的任务的先前指导的推断,并发现我们所学的先验可以帮助完成这两个任务,甚至可以改善特定于特定于任务的状态方法。
我们提出了一种新颖的神经可变形模型 (NDM),旨在从二维稀疏心脏磁共振 (CMR) 成像数据中重建和建模心脏的三维双心室形状。我们使用混合可变形超二次曲面对双心室形状进行建模,该超二次曲面由一组几何参数函数参数化,能够进行全局和局部变形。虽然全局几何参数函数和变形可以从视觉数据中捕捉到总体形状特征,但可以学习局部变形(参数化为神经微分同胚点流)来恢复详细的心脏形状。与传统可变形模型公式中使用的迭代优化方法不同,可以训练 NDM 来学习此类几何参数函数、来自形状分布流形的全局和局部变形。我们的 NDM 可以学习以任意尺度加密稀疏心脏点云并自动生成高质量的三角网格。它还可以隐式学习不同心脏形状实例之间的密集对应关系,以实现准确的心脏形状配准。此外,NDM 的参数直观,医生无需复杂的后处理即可使用。大型 CMR 数据集上的实验结果表明,NDM 的性能优于传统方法。
从单个视图中恢复3D场景几何形状是计算机视觉中的基本问题。虽然经典的深度估计方法仅推断出2.5D场景表示为图像平面,但最新的基于辐射范围的aperach是重建完整的3D代表。然而,这些方法仍然在被占地的区域困难,因为没有视觉观察的几何形状需要(i)周围的语义知识,以及(ii)关于空间上下文的推理。我们提出了Kyn,这是一种单视场景重建的新方法,其原因是语义和空间上下文来预测每个点的密度。我们引入了一个视觉模块模块,以使用细粒度的语义信息丰富点特征。我们通过语言引导的空间注意机制在整个场景中汇总了点表示,以产生意识到3D语义环境的每点密度预测。我们表明,与预测每个3D点的密度相比,Kyn改善了3D形状的恢复。我们在Kitti-360上实现了最新的场景和对象重建结果,并且与先前的工作相比,零弹性概括的改进。项目页面:https://ruili3.github.io/kyn。
许多基于机器学习的轴突追踪方法依赖于带有分割标签的图像数据集。这需要领域专家的手动注释,这需要大量劳动力,并且不适用于以细胞或亚细胞分辨率对半球或整个脑组织进行大规模脑映射。此外,保留轴突结构拓扑对于理解神经连接和大脑功能至关重要。自监督学习 (SSL) 是一种机器学习框架,允许模型在未注释的数据上学习辅助任务,以帮助完成监督目标任务。在这项工作中,我们提出了一种新颖的 SSL 辅助任务,即为面向拓扑的轴突分割和中心线检测的目标任务重建边缘检测器。我们使用小鼠大脑数据集对三个不同的 SSL 任务进行了 3D U-Nets 预训练:我们提出的任务、预测排列切片的顺序和玩魔方。然后,我们在不同的小鼠大脑数据集上评估了这些 U-Nets 和基线模型。在所有实验中,针对我们提出的任务进行预训练的 U-Net 分别将基线的分割、拓扑保留和中心线检测提高了 5.03%、4.65% 和 5.41%。相比之下,切片排列和魔方预训练的 U-Net 并没有比基线有持续的改进。
通过脑机接口,重建所看到的人脑活动图像连接了人机视觉和计算机视觉。由于个体之间大脑功能存在固有差异,现有文献主要集中于使用每个人各自的脑信号数据为每个人获取单独的模型,而忽略了这些数据之间的共性。在本文中,我们设计了心理测量学,这是一个全方位模型,用于重建从不同受试者获得的功能性磁共振成像 (fMRI) 图像。心理测量学包含一个全方位专家混合 (Omni MoE) 模块,其中所有专家共同努力捕捉受试者间的共性,而与特定受试者参数相关的每个专家则负责处理个体差异。此外,心理测量学还配备了一种检索增强推理策略,称为 Ecphory,旨在通过检索预先存储的特定受试者记忆来增强学习到的 fMRI 表征。这些设计共同使心理测量变得万能而高效,使其能够捕捉受试者之间的共性和个体差异。因此,增强的 fMRI 表征可作为条件信号来指导生成模型重建高质量逼真的图像,从而使心理测量在高级和低级指标方面都成为最先进的技术。
Ian Goodfellow等。 (2014)开创性的GAN论文介绍了一个框架,在该框架中,生成器和歧视器竞争生成逼真的合成数据,革命跨领域的生成建模。 lvmin Zhang等。 (2023)本文通过合并条件控制,从而增强了文本对图像扩散模型,从而实现了细粒的视觉生成。 它通过引入其他调节方法(例如对姿势,颜色和样式的控制)来改善输出。 Christian Ledig等。 (2017)Srgan引入了一种基于GAN的方法,将高档低分辨率图像用于高分辨率图像,从而产生了逼真的细节。 它使用感知损失来捕获常规方法无法实现的更细纹理。 Xuebin Qin等。 (2020)U2-NET提出的方法引入了嵌套的U形网络体系结构,旨在有效且轻巧的显着对象检测。 该模型以更少的计算资源来实现最先进的性能。Ian Goodfellow等。(2014)开创性的GAN论文介绍了一个框架,在该框架中,生成器和歧视器竞争生成逼真的合成数据,革命跨领域的生成建模。lvmin Zhang等。(2023)本文通过合并条件控制,从而增强了文本对图像扩散模型,从而实现了细粒的视觉生成。它通过引入其他调节方法(例如对姿势,颜色和样式的控制)来改善输出。Christian Ledig等。(2017)Srgan引入了一种基于GAN的方法,将高档低分辨率图像用于高分辨率图像,从而产生了逼真的细节。它使用感知损失来捕获常规方法无法实现的更细纹理。Xuebin Qin等。 (2020)U2-NET提出的方法引入了嵌套的U形网络体系结构,旨在有效且轻巧的显着对象检测。 该模型以更少的计算资源来实现最先进的性能。Xuebin Qin等。(2020)U2-NET提出的方法引入了嵌套的U形网络体系结构,旨在有效且轻巧的显着对象检测。该模型以更少的计算资源来实现最先进的性能。
Ian Goodfellow等。 (2014)开创性的GAN论文介绍了一个框架,在该框架中,生成器和歧视器竞争生成逼真的合成数据,革命跨领域的生成建模。 lvmin Zhang等。 (2023)本文通过合并条件控制,从而增强了文本对图像扩散模型,从而实现了细粒的视觉生成。 它通过引入其他调节方法(例如对姿势,颜色和样式的控制)来改善输出。 Christian Ledig等。 (2017)Srgan引入了一种基于GAN的方法,将高档低分辨率图像用于高分辨率图像,从而产生了逼真的细节。 它使用感知损失来捕获常规方法无法实现的更细纹理。 Xuebin Qin等。 (2020)U2-NET提出的方法引入了嵌套的U形网络体系结构,旨在有效且轻巧的显着对象检测。 该模型以更少的计算资源来实现最先进的性能。Ian Goodfellow等。(2014)开创性的GAN论文介绍了一个框架,在该框架中,生成器和歧视器竞争生成逼真的合成数据,革命跨领域的生成建模。lvmin Zhang等。(2023)本文通过合并条件控制,从而增强了文本对图像扩散模型,从而实现了细粒的视觉生成。它通过引入其他调节方法(例如对姿势,颜色和样式的控制)来改善输出。Christian Ledig等。(2017)Srgan引入了一种基于GAN的方法,将高档低分辨率图像用于高分辨率图像,从而产生了逼真的细节。它使用感知损失来捕获常规方法无法实现的更细纹理。Xuebin Qin等。 (2020)U2-NET提出的方法引入了嵌套的U形网络体系结构,旨在有效且轻巧的显着对象检测。 该模型以更少的计算资源来实现最先进的性能。Xuebin Qin等。(2020)U2-NET提出的方法引入了嵌套的U形网络体系结构,旨在有效且轻巧的显着对象检测。该模型以更少的计算资源来实现最先进的性能。
摘要 - 光声tomog-raphy的最终目标是准确绘制整个成像组织中的吸收系数。大多数研究都假定生物组织的声学特性,例如声音(SOS)和声学衰减,或者在整个组织中都是均匀的。这些假设降低了衍生吸收系数估计的准确性(DEAC)。我们的定量光声断层扫描(QPAT)方法使用迭代完善的波场重建内部(IR-WRI)估算DEAC,该局部结合了乘数的交替方向方法,以解决与全波逆算法相关的循环跳过挑战。我们的方法弥补了SOS不均匀性,衰变和声学衰减。我们在新生儿头数字幻影上评估了方法的性能。
摘要。定量磁共振成像(QMRI)需要多相的采集,通常依赖于减少数据采样和重建算法来加速扫描,这固有地构成了不良的逆概率。尽管许多研究着重于在此过程中衡量不确定性,但很少有人探索如何利用它来增强重建性能。在本文中,我们介绍了PUQ,这是一种新型的方法,它率先将不确定性信息用于QMRI重建。PUQ采用了两个阶段的重建和参数拟合框架,其中估计在重建过程中估算相位的不确定性,并在拟合阶段使用。此设计允许不确定性反映参数拟合期间不同阶段的可靠性和指导信息集成。我们评估了来自健康受试者的体内T1和T2映射数据集的PUQ。与现有的QMRI重建方法相比,PUQ在参数映射中实现了最新性能,证明了不确定性指导的有效性。我们的代码可在https:// anony-mous.4open.science/r/puq-75b2/上找到。
摘要 - 基于分数的扩散模型具有显着的生成深度学习,用于图像处理。调查条件模型也已应用于CT重建等反问题。但是,常规方法(最终以白噪声)需要大量的反向过程更新步骤和分数功能评估。为了解决这一局限性,我们提出了一个基于分数扩散模型的替代前进过程,该过程与低剂量CT重建的噪声特性一致,而不是收敛到白噪声。这种方法大大减少了所需的得分功能评估的数量,提高效率并维持放射科医生熟悉的噪声纹理,我们的方法不仅可以加速生成过程,而且还保留了CT噪声相关性,这是临床医生经常批评的深度学习重建的关键方面。在这项工作中,我们严格地为此目的定义了基质控制的随机过程,并通过计算实验对其进行验证。使用来自癌症基因组肝肝肝癌(TCGA-LIHC)的数据集,我们模拟了低剂量CT测量结果并训练我们的模型,将其与基线标量扩散过程和条件扩散模型进行了比较。我们的结果证明了我们的伪内扩散模型的优越性,并在质地上产生高质量重建的能力,这些重建在质地上熟悉的医学专业人员的得分函数评估较少。这一进步为医学成像中更有效和临床上的扩散模型铺平了道路,在需要快速重建或较低辐射暴露的情况下尤其有益。
