感知在各种机器人应用中起着至关重要的作用。但是,现有的良好的数据集偏向自动驾驶场景,而未标记的SLAM数据集则很快过于拟合,并且通常缺乏环境和域变化。为了扩大这些领域的边界,我们介绍了一个名为MCD(Multi-campus数据集)的全面数据集,其中包含各种感应方式,高准确的地面真相以及在三个欧亚大学的欧亚大学校园内的挑战性环境。MCD包括CCS(经典的圆柱旋转)和NRE(非重复性环球)LIDAR,高质量的IMU(惯性测量单元),相机和UWB(URWB(Ultra-Wideband))传感器。更重要的是,在开创性的努力中,我们引入了29堂课的语义注释,超过59k稀疏的nre lidar扫描
上个月,Kudan 参加了在圣何塞举行的 NVIDIA GPU 技术大会 (GTC) 和 Jetson 合作伙伴日。这是一个绝佳的机会,可以亲自了解生成式人工智能和更广泛的机器人领域的最新发展,加深我们对 NVIDIA 对市场趋势的看法,并推进与 NVIDIA 机器人团队和其他潜在合作者的合作。目前,NVIDIA 的大部分增长都集中在数据中心,反映了生成式 AI 的现状,其中计算密集型模型占主导地位。大规模语言模型 (LLM) 通常具有数十亿个参数,而 GPT-4 等最新进展估计将达到万亿个参数大关。 然而,谈到机器人加速计算和边缘计算,我们仍处于早期阶段。小型语言模型 (SLM) 和微型视觉语言模型 (VLM) 可以在 NVIDIA Jetson 设备(包括 Orin Nano)上运行。然而,边缘计算机预计要处理多项任务,而且机器人和边缘设备执行的任务的关键性要求对错误的容忍度要低得多。聊天机器人可以犯一些错误,但仍然可以为用户提供价值,但是当机器人犯错时,代价可能是灾难性的。 NVIDIA 对边缘计算和机器人技术的未来的乐观前景正在指导我们在这些领域的战略投资。尽管目前还处于早期阶段且面临诸多挑战,但边缘人工智能的市场机会无疑是巨大的。尽管这一市场扩张的时机仍不确定,但它所代表的机遇规模却是显而易见的。
深度卷积神经网络(DCNN)的预训练在视觉情绪分析(VSA)领域起着至关重要的作用。大多数提出的方法都采用在大型物体分类数据集(即 ImageNet)上预训练的现成的主干网络。虽然与随机初始化模型状态相比,它在很大程度上提高了性能,但我们认为,仅在 ImageNet 上进行预训练的 DCNN 可能过于注重识别物体,而未能提供情绪方面的高级概念。为了解决这个长期被忽视的问题,我们提出了一种基于人类视觉情绪感知(VSP)机制的面向情绪的预训练方法。具体而言,我们将 VSP 的过程分为三个步骤,即刺激接受、整体组织和高级感知。通过模仿每个 VSP 步骤,我们通过设计的情绪感知任务分别对三个模型进行预训练,以挖掘情绪区分的表示。此外,结合我们精心设计的多模型融合策略,从每个感知步骤中学习到的先验知识可以有效地转移到单个目标模型中,从而获得显着的性能提升。最后,我们通过大量实验验证了我们提出的方法的优越性,涵盖了从单标签学习(SLL)、多标签学习(MLL)到标签分布学习(LDL)的主流 VSA 任务。实验结果表明,我们提出的方法在这些下游任务中取得了一致的改进。我们的代码发布在 https://github.com/tinglyfeng/sentiment_pretraining 。
分割算法的疗效经常因拓扑错误,连接中断和空隙等拓扑错误而受到损害。为了解决这一问题,我们引入了一种新颖的损失函数,即拓扑 - 意识局灶性损失(TAFL),该功能将基于基于地面真实和预测段蒙版的持久性图表之间的拓扑结构术语与拓扑结构术语结合在一起。通过实施与地面真理相同的拓扑结构,拓扑的约束可以有效地解决拓扑结构,而焦点损失可以解决阶级失衡。我们首先是从地面真理和预测的分割掩模的过滤的立方复合物中构造持久图。随后,我们利用sindhorn-knopp算法来确定两个持久图之间的最佳运输计划。最终的运输计划最小化了将质量从一个分布到另一个分布的运输成本,并在两个持久图中的点之间提供了映射。然后,我们根据该旅行计划计算沃斯堡的距离,以测量地面真相和预测的面具之间的拓扑差异。我们通过训练3D U-NET与MICCAI脑肿瘤分割(BRATS)CHALLENE验证数据集来评估我们的方法,该数据需要准确地分割3D MRI扫描,从而整合各种方式,以精确鉴定和跟踪恶性脑肿瘤。然后,我们证明,通过添加拓扑约束作为惩罚项,通过将焦点损失正规化来提高分段性能的质量。
最近在操纵和运动领域取得了显着进展,但移动操作仍然是一个长期以来的挑战。与运动或静态操纵相比,移动系统必须在非结构化和动态环境中可行的多种长距离任务。尽管应用程序广泛且有趣,但在开发这些系统(例如基础和手臂之间的协调)时,有很多挑战,依靠在船上感知到感知和与环境互动,最重要的是,同时整合了所有这些部分。先前的作品使用模块化技能来解决问题,以使其动机和操纵被微不足道地捆绑在一起。这引起了多个限制
摘要 在计算机视觉和机器人领域,具身代理有望探索其环境并执行人类的指令。 这就需要能够根据第一人称观察充分理解 3D 场景,并将其语境化为语言进行交互。 然而,传统研究更多地侧重于从全局视角进行场景级输入和输出设置。 为了解决这一差距,我们引入了 EmbodiedScan,这是一个多模态、以自我为中心的 3D 感知数据集和整体 3D 场景理解的基准。 它包含超过 5k 个扫描,封装了 1M 个以自我为中心的 RGB-D 视图、1M 个语言提示、160k 个 3D 导向框,涵盖 760 多个类别,其中一些与 LVIS 部分一致,以及具有 80 个常见类别的密集语义占用率。 基于这个数据库,我们引入了一个名为 Embodied Perceptron 的基线框架。它能够处理任意数量的多模态输入,并表现出卓越的 3D 感知能力,无论是在我们建立的两个系列基准测试(即基本 3D 感知任务和基于语言的任务)中,还是在野外。
随着新闻机构在公众不信任的问题上挣扎,人工智能(AI)的记者可能会通过激活机器启发式方法来减少对敌对媒体偏见的看法,这是一种普遍的心理捷径 - 观众将机器视为客观,系统性和准确性。本报告详细介绍了两个实验的结果(分别为n = 235和279,美国成年人)复制了作者以前的工作。与先前的工作一致,目前的研究为AI记者的触发机器神秘主义评估而又减少了对敌对媒体偏见的看法的论点提供了更多支持。延长了过去的工作,目前的研究还表明,偏置缓解过程(如果AI,机器神经疗法激活,因此减少了偏差)会受到源/自我意识到的不一致的调节,尽管在两个问题的覆盖范围内不同(堕胎合法化和共同化疫苗的疫苗授权)。
摘要:由于食物的复杂状态和多样化的物理特性,有效地挖出食品对当前机器人系统构成了重大挑战。为了应对这一挑战,我们相信将食品编码为有意义的有效食品的重要性。然而,食品的独特特性,包括可变形,脆弱性,流动性或粒度,对现有表示构成了重大挑战。在本文中,我们以隐式方式提出了积极感知来学习有意义的食物代表的潜力。为此,我们提出了Scone,这是一个食品搜索机器人学习框架,利用从积极的掌握中获得的表示形式来促进食品可铲政策学习。Scone包括两个Crucial编码组件:交互式编码器和状态检索模式。通过编码过程,Scone能够捕获食品的特性和重要的状态特征。在我们的现实世界中的实验中,Scone在三种不同的难度水平上使用6种以前看不见的食品时,成功率具有71%的成功率,超过了最先进的方法。这种增强的性能强调了Scone的稳定性,因为所有食品始终达到超过50%的任务成功率。此外,Scone可容纳各种初始状态的令人印象深刻的能力使其能够精确评估食物的当前状况,从而导致了令人信服的成功率。有关更多信息,请访问我们的网站。
糖尿病管理中越来越多的证据使疾病感知与对病情的成功控制,并改善了成年人的健康结果(1,2)。青少年通常很难遵守糖尿病护理计划(3,4),以便更好地了解他们对疾病的看法可以帮助改善其控制和健康成果(5,6)。此外,在青春期还形成了疾病感知,这使得这是一个重要的时期,在其中考虑这种情况(7,8)。尽管有充分的证据表明疾病对成年人的重要性,但对于青少年来说,这是尚无定论的(9,10)。可用的研究主要集中于提供不一致结果的定量研究(6,11)。在本文中,在一项审查研究的支持下,三项研究的定性发现强调了疾病在青少年发展框架内的重要性,并建议未来的研究以操作这些发现。本文的独创性在于对患者声音的有效使用和反映,这在医学研究中通常不存在。
