可变形图像配准是医学图像分析的基本步骤。最近,Transformer 已用于配准,其表现优于卷积神经网络 (CNN)。Transformer 可以捕获图像特征之间的长距离依赖性,这已被证明对配准有益。然而,由于自注意力的计算/内存负载高,Transformer 通常用于下采样特征分辨率,无法捕获全图像分辨率下的细粒度长距离依赖性。这限制了可变形配准,因为它需要每个图像像素之间精确的密集对应关系。没有自注意力的多层感知器 (MLP) 在计算/内存使用方面效率高,从而可以捕获全分辨率下的细粒度长距离依赖性。然而,MLP 尚未在图像配准中得到广泛探索,并且缺乏对医学配准任务至关重要的归纳偏差的考虑。在本研究中,我们提出了第一个基于相关感知 MLP 的配准网络 (CorrMLP) 用于可变形医学图像配准。我们的 CorrMLP 在新颖的粗到细配准架构中引入了关联感知多窗口 MLP 块,该架构可捕获细粒度多范围依赖性以执行关联感知粗到细配准。对七个公共医疗数据集进行的大量实验表明,我们的 CorrMLP 优于最先进的可变形配准方法。
摘要 在计算机视觉和机器人领域,具身代理有望探索其环境并执行人类的指令。 这就需要能够根据第一人称观察充分理解 3D 场景,并将其语境化为语言进行交互。 然而,传统研究更多地侧重于从全局视角进行场景级输入和输出设置。 为了解决这一差距,我们引入了 EmbodiedScan,这是一个多模态、以自我为中心的 3D 感知数据集和整体 3D 场景理解的基准。 它包含超过 5k 个扫描,封装了 1M 个以自我为中心的 RGB-D 视图、1M 个语言提示、160k 个 3D 导向框,涵盖 760 多个类别,其中一些与 LVIS 部分一致,以及具有 80 个常见类别的密集语义占用率。 基于这个数据库,我们引入了一个名为 Embodied Perceptron 的基线框架。它能够处理任意数量的多模态输入,并表现出卓越的 3D 感知能力,无论是在我们建立的两个系列基准测试(即基本 3D 感知任务和基于语言的任务)中,还是在野外。
摘要:由于食物的复杂状态和多样化的物理特性,有效地挖出食品对当前机器人系统构成了重大挑战。为了应对这一挑战,我们相信将食品编码为有意义的有效食品的重要性。然而,食品的独特特性,包括可变形,脆弱性,流动性或粒度,对现有表示构成了重大挑战。在本文中,我们以隐式方式提出了积极感知来学习有意义的食物代表的潜力。为此,我们提出了Scone,这是一个食品搜索机器人学习框架,利用从积极的掌握中获得的表示形式来促进食品可铲政策学习。Scone包括两个Crucial编码组件:交互式编码器和状态检索模式。通过编码过程,Scone能够捕获食品的特性和重要的状态特征。在我们的现实世界中的实验中,Scone在三种不同的难度水平上使用6种以前看不见的食品时,成功率具有71%的成功率,超过了最先进的方法。这种增强的性能强调了Scone的稳定性,因为所有食品始终达到超过50%的任务成功率。此外,Scone可容纳各种初始状态的令人印象深刻的能力使其能够精确评估食物的当前状况,从而导致了令人信服的成功率。有关更多信息,请访问我们的网站。
计算机视觉社区过去主要集中于视觉算法的开发,用于对象检测,跟踪和分类,并在白天和类似办公室的环境中使用可见的范围传感器。在过去的十年中,红外线(IR),深度,X射线和其他不可见名的成像传感器仅在医学和防御等特殊领域中使用。与传统的计算机视觉相比,在这些感觉领域的兴趣相对较低,部分原因是它们的高成本,低分辨率,图像质量差,缺乏广泛可用的数据集以及/或缺乏对频谱不可访问的部分的优势的考虑。随着传感器技术的迅速发展,传感器成本急剧下降,这些局限性正在克服。此外,对安全和可靠性是主要问题的自主系统的兴趣日益增强,强调了强大的感知系统的重要性。在此类关键系统中,在不同频谱中运行的传感器相互补充,以克服每个单独的传感器的局限性,以在各种照明和天气条件下提供强大而可靠的感知。
分割算法的疗效经常因拓扑错误,连接中断和空隙等拓扑错误而受到损害。为了解决这一问题,我们引入了一种新颖的损失函数,即拓扑 - 意识局灶性损失(TAFL),该功能将基于基于地面真实和预测段蒙版的持久性图表之间的拓扑结构术语与拓扑结构术语结合在一起。通过实施与地面真理相同的拓扑结构,拓扑的约束可以有效地解决拓扑结构,而焦点损失可以解决阶级失衡。我们首先是从地面真理和预测的分割掩模的过滤的立方复合物中构造持久图。随后,我们利用sindhorn-knopp算法来确定两个持久图之间的最佳运输计划。最终的运输计划最小化了将质量从一个分布到另一个分布的运输成本,并在两个持久图中的点之间提供了映射。然后,我们根据该旅行计划计算沃斯堡的距离,以测量地面真相和预测的面具之间的拓扑差异。我们通过训练3D U-NET与MICCAI脑肿瘤分割(BRATS)CHALLENE验证数据集来评估我们的方法,该数据需要准确地分割3D MRI扫描,从而整合各种方式,以精确鉴定和跟踪恶性脑肿瘤。然后,我们证明,通过添加拓扑约束作为惩罚项,通过将焦点损失正规化来提高分段性能的质量。
糖尿病管理中越来越多的证据使疾病感知与对病情的成功控制,并改善了成年人的健康结果(1,2)。青少年通常很难遵守糖尿病护理计划(3,4),以便更好地了解他们对疾病的看法可以帮助改善其控制和健康成果(5,6)。此外,在青春期还形成了疾病感知,这使得这是一个重要的时期,在其中考虑这种情况(7,8)。尽管有充分的证据表明疾病对成年人的重要性,但对于青少年来说,这是尚无定论的(9,10)。可用的研究主要集中于提供不一致结果的定量研究(6,11)。在本文中,在一项审查研究的支持下,三项研究的定性发现强调了疾病在青少年发展框架内的重要性,并建议未来的研究以操作这些发现。本文的独创性在于对患者声音的有效使用和反映,这在医学研究中通常不存在。
面部表达识别(FER)在计算机视觉应用中起着关键作用,包括视频不存在和人类计算机的相互作用。尽管FER的进展没有局部进步,但在处理在现实世界情景和数据集中遇到的低分辨率面部图像时,性能仍然会摇摆不定。一致性约束技术引起了人们的关注,以产生强大的卷积神经网络模型,从而通过增强来适应变化,但它们的功效在低分辨率FER的领域中得到了影响。这种性能下降可以归因于网络难以提取表达特征的增强样本。在本文中,我们确定了在考虑各种程度的分辨率时引起过度拟合问题的硬样品,并提出了新颖的硬样品感知一致性(HSAC)损失函数,其中包括组合注意力同意和标签分布学习。通过结合高分辨率和翻转低分辨率图像的激活图,将注意力图与适当的目标注意图与适当的目标注意图与适当的目标注意力图相结合的注意图与适当的目标注意力图的注意力图对齐。我们通过结合原始目标和高分辨率输入的预测来测量低分辨率面部图像的分类难度,并适应标签分布学习。我们的HSAC通过有效管理硬样品来赋予网络能够实现概括。各种FER数据集上的广泛实验证明了我们提出的方法比现有方法的多尺度低分辨率图像的优越性。此外,我们在原始RAF-DB数据集中达到了90.97%的最新性能。
机器人及时通过传感器数据构建持久,准确且可操作的模型的能力是自主操作的范围。在将世界表示为点云可能足以进行本地化时,避免障碍物需要更密集的场景表示形式。另一方面,更高级别的语义信息通常对于分解必要的步骤来完成一项复杂的任务,例如烹饪,自主是至关重要的。因此,迫在眉睫的问题是,手头机器人任务的合适场景表示是什么?这项调查提供了对关键方法和框架的全面回顾,这在机器人空间感知领域推动了进步,并特别关注了代表的历史演变和当前的趋势。通过将场景建模技术分类为三种主要类型(公式,公式和指标 - 语言流行),我们讨论了空间启示框架正在从构建世界的纯几何模型转变为更高级的数据结构的方式,这些模型包括更高级别的概念,例如对象实例和位置的概念。特别重点是实时同时定位和映射(SLAM)的方法,它们与深度学习的集成,以增强了鲁棒性和场景的理解,以及它们处理场景动态性的能力,作为当今驾驶Robotics研究的一些最热门的主题。我们在讨论方面的挑战和未来的研究方向的讨论中进行了结论,以建立适合长期自治的强大而可扩展的空间感知系统。
摘要该研究确定了玉米农民对尼日利亚阿比亚州转基因作物的认识和感知。使用多阶段抽样程序选择了一百八十四名受访者进行调查。用结构化的查询范围收集数据,并以百分比,均值和回归分析进行分析。多数(67.4%)的农民不知道转基因的玉米作物,而农作物不在供应中(x̄= 1.5)。玉米农民对转基因作物的看法不是很喜欢(x̄= 2.4)。很难在市场上出售它们(x̄= 3.4),气候变化对预期产量的负面影响的威胁(x̄= 3.2)以及这些农作物可能需要大量投入的可能性,例如肥料和肉质(x̄= 2.8)。年龄(β= 1.023),以前具有改善的作物品种(β= 2.112)和Internet访问(β= 2.317)的经验对农民的看法有积极影响,但是高等学校学位的家庭成员人数(β= -0.721)具有负面影响。应该创建对转基因玉米作物的更多认识,以使农民能够根据对农作物的看法做出反对的决定。扩展服务应得到充分资金来实现这一目标。
上个月,Kudan 参加了在圣何塞举行的 NVIDIA GPU 技术大会 (GTC) 和 Jetson 合作伙伴日。这是一个绝佳的机会,可以亲自了解生成式人工智能和更广泛的机器人领域的最新发展,加深我们对 NVIDIA 对市场趋势的看法,并推进与 NVIDIA 机器人团队和其他潜在合作者的合作。目前,NVIDIA 的大部分增长都集中在数据中心,反映了生成式 AI 的现状,其中计算密集型模型占主导地位。大规模语言模型 (LLM) 通常具有数十亿个参数,而 GPT-4 等最新进展估计将达到万亿个参数大关。 然而,谈到机器人加速计算和边缘计算,我们仍处于早期阶段。小型语言模型 (SLM) 和微型视觉语言模型 (VLM) 可以在 NVIDIA Jetson 设备(包括 Orin Nano)上运行。然而,边缘计算机预计要处理多项任务,而且机器人和边缘设备执行的任务的关键性要求对错误的容忍度要低得多。聊天机器人可以犯一些错误,但仍然可以为用户提供价值,但是当机器人犯错时,代价可能是灾难性的。 NVIDIA 对边缘计算和机器人技术的未来的乐观前景正在指导我们在这些领域的战略投资。尽管目前还处于早期阶段且面临诸多挑战,但边缘人工智能的市场机会无疑是巨大的。尽管这一市场扩张的时机仍不确定,但它所代表的机遇规模却是显而易见的。
