尽管最近的研究通过深度学习技术突破了极限,但从 3D 点云中进行物体检测仍然是一项具有挑战性的任务。由于严重的空间遮挡和点密度随到传感器距离的固有变化,同一物体在点云数据中的外观会有很大变化。因此,设计针对这种外观变化的鲁棒特征表示是 3D 物体检测方法的关键问题。在本文中,我们创新地提出了一种类似域自适应的方法来增强特征表示的鲁棒性。更具体地说,我们弥合了特征来自真实场景的感知域和特征从由富含详细信息的非遮挡点云组成的增强场景中提取的概念域之间的差距。这种领域自适应方法模仿了人脑在进行物体感知时的功能。大量实验表明,我们简单而有效的方法从根本上提高了 3D 点云物体检测的性能并取得了最先进的结果。
,QWURGXFWLRQ口语技术的域范围从语音输入和输出系统到复杂的理解和生成系统,包括具有广泛差异的复杂性(例如自动命令机)和多语言系统(例如自动对话和翻译系统)的多模态系统。对此类系统的标准和评估方法的定义涉及高度特定的口语语料库和词典资源的规范和开发,以及测量和评估工具。在开始时,这些领域的标准是从以前在许多欧洲和国家项目中建立的口语社区中的共识得出的,它参考了美国和日本的重要举措。主要是SAM项目(集中在组件技术评估和语料库创建上),SQALE(用于大型词汇系统评估)以及日d和Sundial和Sunstar(用于多模式系统)过去和现在的项目在评估和资源领域具有重要的产量,包括ARS,Relator,Onomastica和SpeechDat,以及德国的Verbmobil等主要国家项目和研究计划。
实现强大而实时的3D感知是自动驾驶汽车的基础。虽然大多数现有的3D感知方法优先考虑检测准确性,但十个忽略了关键方面,例如计算效率,板载芯片部署友好性,对传感器安装偏差的韧性以及对各种VE-HILE类型的适应性。为了应对这些挑战,我们提出了nvautonet:一种专业的鸟类视图(BEV)感知网络 - 针对自动化车辆的明确量身定制。nvautonet将同步的相机图像作为输入,并预测3D信号(例如障碍物,自由空间和停车位)。NVAUTONET架构(图像和Bev Back-bones)的核心依赖于有效的卷积网络,该网络使用Tensorrt优化了高性能。我们的图像到BEV转换采用简单的线性层和BEV查找表,从而确保了快速推理速度。Nvautonet在广泛的专有数据集中受过培训,在NVIDIA DRIVE ORIN SOC上以每秒53帧的速度运行,始终达到升高的感知精度。值得注意的是,Nvautonet表现出对不同汽车模型产生的偏差偏差的韧性。此外,Nvautonet在适应各种车辆类型方面表现出色,这是通过廉价模型的微调程序来促进的,可以加快兼容性调整。
为了确保组织和个人获得适当程度的成功,一个非常重要的因素的一个很好的例子,这个因素变得越来越重要,就是能够拒绝没有或几乎没有恐惧感的申请人。在早期,这种人被认为是飞行员训练的最佳候选人。现在我们知道,一个无所畏惧的飞行员在对自己和每个人构成威胁时,
计算机视觉社区过去主要集中于视觉算法的开发,用于对象检测,跟踪和分类,并在白天和类似办公室的环境中使用可见的范围传感器。在过去的十年中,红外线(IR),深度,X射线和其他不可见名的成像传感器仅在医学和防御等特殊领域中使用。与传统的计算机视觉相比,在这些感觉领域的兴趣相对较低,部分原因是它们的高成本,低分辨率,图像质量差,缺乏广泛可用的数据集以及/或缺乏对频谱不可访问的部分的优势的考虑。随着传感器技术的迅速发展,传感器成本急剧下降,这些局限性正在克服。此外,对安全和可靠性是主要问题的自主系统的兴趣日益增强,强调了强大的感知系统的重要性。在此类关键系统中,在不同频谱中运行的传感器相互补充,以克服每个单独的传感器的局限性,以在各种照明和天气条件下提供强大而可靠的感知。
对自动驾驶汽车的抽象协作感知旨在克服个人感知的局限性。在多个代理之间共享信息,可以解决多个问题,例如遮挡,传感器范围限制和盲点。最大的挑战之一是在受到束缚绩效和沟通带宽之间找到正确的权衡。本文提出了一种新的合作感知管道,该管道基于Whate2Comm算法具有优化策略,以减少几种代理之间的传输数据量。这些策略涉及编码器部分中的数据减少模块,以有效地选择最重要的特征,并以V2X方式交换消息的新代表,该消息将考虑信息及其位置的向量而不是高维特征图。在两个模拟数据集(OPV2V和V2XSET)上评估我们的方法。数据集上的AP@50的准确性大约为7%,并且在V2XSET和OPV2V上分别降低了89.77%和92.19%。
摘要 在计算机视觉和机器人领域,具身代理有望探索其环境并执行人类的指令。 这就需要能够根据第一人称观察充分理解 3D 场景,并将其语境化为语言进行交互。 然而,传统研究更多地侧重于从全局视角进行场景级输入和输出设置。 为了解决这一差距,我们引入了 EmbodiedScan,这是一个多模态、以自我为中心的 3D 感知数据集和整体 3D 场景理解的基准。 它包含超过 5k 个扫描,封装了 1M 个以自我为中心的 RGB-D 视图、1M 个语言提示、160k 个 3D 导向框,涵盖 760 多个类别,其中一些与 LVIS 部分一致,以及具有 80 个常见类别的密集语义占用率。 基于这个数据库,我们引入了一个名为 Embodied Perceptron 的基线框架。它能够处理任意数量的多模态输入,并表现出卓越的 3D 感知能力,无论是在我们建立的两个系列基准测试(即基本 3D 感知任务和基于语言的任务)中,还是在野外。
摘要:家禽业在全球农业中起关键作用,家禽是蛋白质的主要来源,并为经济增长做出了重大贡献。但是,该行业面临着与重复性且苛刻的劳动密集型任务相关的挑战。自动化已成为提高运营效率并提高工作条件的关键解决方案。具体来说,机器人的操纵和对象的处理在工厂中变得无处不在。但是,存在挑战以预先识别和引导机器人处理一堆具有相似纹理和颜色的物体。本文着重于开发旨在自动化鸡的机器人解决方案的视觉系统,该机器人解决过程是一种基本的,但在家禽加工中是一种基本但身体上剧烈的活动。为了解决通用实例分割模型在识别重叠对象中的限制,开发了一种具有成本效益的双重活性激光扫描系统来生成对象上的精确深度数据。将经过良好的深度数据生成与RGB图像集成在一起,并将其发送到实例分割模型以进行单个鸡检测和识别。这种增强的方法显着改善了该模型在处理涉及重叠鸡的复杂场景中的性能。具体而言,RGB-D数据的集成将模型的平均平均精度(MAP)检测准确性提高了4.9%,并显着改善了中心偏移 - 本研究中引入的定制度量标准,以量化地面真相蒙版中心与预测的面具中心之间的距离。精确的中心检测对于开发未来的机器人控制解决方案至关重要,因为它可以确保在鸡肉重定过程中准确抓住。中心偏移量从22.09像素(7.30 mm)降低到8.09像素(2.65 mm),证明了该方法在缓解闭塞挑战和增强视觉系统的可靠性方面的有效性。
检查。论文是:•Max Planck 23。4。1858 Kiel•Arnold Sommerfeld 5.12。 1868Königsberg•Albert Einstein 14。 3。 1879 ULM•Ernest Rutherford 30。 8。 1871 Spring Grove•Max Burn 11 12. 1882 Breslau•James Franck 26。 8。 1882 Hamburg•Niels Bohr 7。 10。 1885哥本哈根•ErwinSchrödinger12。 8。 1887 VIENNA•WOLFGANG PAULI 25。 4。 1900维也纳•Werner Heisenberg 5.12。 1901Würzburg•Enrico Fermi 29。 9。 1901罗马•Paul Dirac 8。 8。 1902 Bristol•Pascual Jordan 18。 10。 1902 Hannover•Lew Landau 22。 1。 1908年巴库•约翰·阿奇博尔德·惠勒(John Archibald Wheeler)9。 7。 1911佛罗里达•理查德·费曼(Richard Feynman)11。 5。 1918皇后区,纽约•朱利安·施温格12。 2。 1918纽约市1858 Kiel•Arnold Sommerfeld 5.12。1868Königsberg•Albert Einstein 14。 3。 1879 ULM•Ernest Rutherford 30。 8。 1871 Spring Grove•Max Burn 11 12. 1882 Breslau•James Franck 26。 8。 1882 Hamburg•Niels Bohr 7。 10。 1885哥本哈根•ErwinSchrödinger12。 8。 1887 VIENNA•WOLFGANG PAULI 25。 4。 1900维也纳•Werner Heisenberg 5.12。 1901Würzburg•Enrico Fermi 29。 9。 1901罗马•Paul Dirac 8。 8。 1902 Bristol•Pascual Jordan 18。 10。 1902 Hannover•Lew Landau 22。 1。 1908年巴库•约翰·阿奇博尔德·惠勒(John Archibald Wheeler)9。 7。 1911佛罗里达•理查德·费曼(Richard Feynman)11。 5。 1918皇后区,纽约•朱利安·施温格12。 2。 1918纽约市1868Königsberg•Albert Einstein 14。3。1879 ULM•Ernest Rutherford 30。 8。 1871 Spring Grove•Max Burn 11 12. 1882 Breslau•James Franck 26。 8。 1882 Hamburg•Niels Bohr 7。 10。 1885哥本哈根•ErwinSchrödinger12。 8。 1887 VIENNA•WOLFGANG PAULI 25。 4。 1900维也纳•Werner Heisenberg 5.12。 1901Würzburg•Enrico Fermi 29。 9。 1901罗马•Paul Dirac 8。 8。 1902 Bristol•Pascual Jordan 18。 10。 1902 Hannover•Lew Landau 22。 1。 1908年巴库•约翰·阿奇博尔德·惠勒(John Archibald Wheeler)9。 7。 1911佛罗里达•理查德·费曼(Richard Feynman)11。 5。 1918皇后区,纽约•朱利安·施温格12。 2。 1918纽约市1879 ULM•Ernest Rutherford 30。8。1871 Spring Grove•Max Burn 11 12.1882 Breslau•James Franck 26。8。1882 Hamburg•Niels Bohr 7。10。1885哥本哈根•ErwinSchrödinger12。8。1887 VIENNA•WOLFGANG PAULI 25。 4。 1900维也纳•Werner Heisenberg 5.12。 1901Würzburg•Enrico Fermi 29。 9。 1901罗马•Paul Dirac 8。 8。 1902 Bristol•Pascual Jordan 18。 10。 1902 Hannover•Lew Landau 22。 1。 1908年巴库•约翰·阿奇博尔德·惠勒(John Archibald Wheeler)9。 7。 1911佛罗里达•理查德·费曼(Richard Feynman)11。 5。 1918皇后区,纽约•朱利安·施温格12。 2。 1918纽约市1887 VIENNA•WOLFGANG PAULI 25。4。1900维也纳•Werner Heisenberg 5.12。1901Würzburg•Enrico Fermi 29。 9。 1901罗马•Paul Dirac 8。 8。 1902 Bristol•Pascual Jordan 18。 10。 1902 Hannover•Lew Landau 22。 1。 1908年巴库•约翰·阿奇博尔德·惠勒(John Archibald Wheeler)9。 7。 1911佛罗里达•理查德·费曼(Richard Feynman)11。 5。 1918皇后区,纽约•朱利安·施温格12。 2。 1918纽约市1901Würzburg•Enrico Fermi 29。9。1901罗马•Paul Dirac 8。8。1902 Bristol•Pascual Jordan 18。10。1902 Hannover•Lew Landau 22。1。1908年巴库•约翰·阿奇博尔德·惠勒(John Archibald Wheeler)9。7。1911佛罗里达•理查德·费曼(Richard Feynman)11。5。1918皇后区,纽约•朱利安·施温格12。2。1918纽约市
由外部磁场造成的软机器因其与生物体和复杂环境相互作用的潜力而引起了显着关注。但是,它们的适应性和功能通常受到操作过程中刚性磁化的限制。在这项工作中,我们在操作过程中引入了动态可重编程的磁性软计算机,并通过各种磁场的协同作用在操作过程中进行原位重新确定的磁化功率。可振荡的谐振电路集成到机体中,从而通过不同频率的高频频率实现了对特定区域的可寻址和可感知的加热。机身由由低熔点合金和NDFEB微粒制成的微型头。加热时,合金液体会固定,允许在40吨脉冲编程场下旋转NDFEB微粒。冷却后,新的配置被锁定在适当的位置。此重编程过程对于单个或多台机器同样有效,从而实现了多种机器的多种模式变形和多个机器的合作。此外,通过结合可寻址的热致动,我们将示意多个机器人的原位组装。这项工作可能使具有增强功能的磁性软计算机可以实现。