摘要 - 水资源是人类的基础。表面浮游物体的精确检测是环境保护无人机进行河流清洁操作的主要先决条件。针对当前目标检测算法在复杂场景和低特征识别能力下对水面上的小目标的不良适应性,本文提出了水表面流动物体检测算法USV-yolo,这实现了在内陆河流复杂条件下充电对象的准确识别和检测。最初,设计了一种新颖的C2F频道模块。它优化了特征信息的利用,并通过顺序融合和串联从瓶颈层发出的特征信息来提高检测浮动物体的准确性;其次,该设计介绍了GS-EVC模块,该模块通过合并GSCONV和SHUF-flof flof flof flof flof flof flof flof flof flof flof flopl oterations介绍了表面炉的原始特征信息的利用,增强了远程特征信息之间的依赖性,并增强了特征识别能力;最终,骨干网络中的标准卷积被全尺寸动态ODCONV代替。其中的加权注意机制可以适应复杂目标的特征提取,从而进一步提高了网络的检测精度。实验是在开源数据集(浮动waste-i和flow-img)上进行的,实验结果表明,本文中的USV-Yolo算法提高了平均检测精度,地图50和MAP 50-95,分别提高了4.3%和6.1%,比原始网络更好,这是其他经典的目标。
从单目图像重建3D物体是计算机视觉领域的一个基本问题。高效的重建系统能够开辟广泛的应用领域,包括增强现实、电影制作和制造业。单目3D重建也是一个复杂的逆问题:虽然可见表面可以通过阴影估计,但预测遮挡表面需要强大的3D物体先验知识。我们的领域已经在两个不同的方向上出现了分歧:前馈回归[2、10、19、24、25、27、37、53、54、59-62、65、66、69]和基于扩散的生成[6、8、9、26、29、31-35、39、46-48、68、71]。尽管在两个方向上都取得了重大进展,但每个方向都有根本的局限性。基于回归的模型在粘附图像中的可见表面方面非常有效,并且推理速度通常很快。然而,它们对图像和 3D 之间的双射映射做出了过于简单的假设。这一假设在学习目标中引入了模糊性,导致遮挡区域的表面和纹理估计不佳。另一方面,基于扩散的方法是生成性的,不能预测统计平均值。然而,在建模高分辨率 3D 时,它们在推理时的迭代采样计算效率低下。此外,[27] 等先前的研究表明,扩散生成的 3D 模型与输入图像中可见表面的对齐效果较差。我们如何才能兼顾两者的优点而又避免它们的局限性?有鉴于此,我们提出了 SPAR3D,它将 3D 重建过程分为两个阶段:点采样阶段和网格划分阶段。点采样阶段使用扩散模型生成稀疏点云,然后是网格划分阶段,将点云转换为高度详细的网格。我们的主要思想是将不确定性建模转移到点采样阶段,在此阶段,点云的低分辨率允许快速迭代采样。随后的网格划分阶段利用局部图像特征将点云转换为具有高输出保真度的详细网格。减少点云网格划分的不确定性进一步促进了逆渲染的无监督学习,从而减少了纹理中的烘焙照明。我们的两阶段设计使 SPAR3D 的性能显著优于以前的回归方法,同时保持了高计算效率和对输入观测的保真度。我们方法的一个关键设计选择是使用点云来连接两个阶段。为了确保快速重建,我们的中间表示需要轻量级,以便能够高效生成。另一方面,它应该为网格划分阶段提供足够的指导。这
我们解决了场景中检测出偏置(OOC)对象的问题。给定图像,我们的目的是确定图像是否具有在通常的上下文中不存在的对象并定位此类OOC对象。现有的OOC检测方法取决于根据手动构造的特征定义共同的上下文,例如对象的同时存在,对象之间的空间关系以及对象的形状和大小,然后学习给定数据集的上下文。但上下文通常是从非常普遍到非常令人惊讶的不等式的。,从特定数据集中获得的学习上下文可能不会被赋予一般性,因为数据集可能并不能真正代表上下文中事物的人类否定。是由大型语言模型的成功和更普遍的基础模型(FMS)在常识推理中的动机所激发的,我们研究了FM捕获上下文概念的FM的能力。我们发现,诸如GPT-4之类的预训练的FM提供了更细微的OOC概念,并且当与其他预训练的FMS结合以进行字幕生成(例如BLIP-2)(例如BLIP-2),并与sta-ble扩散2.0进行图像。我们的方法不需要任何数据集特定培训。我们在两个OOC对象检测数据集上演示了我们的AP的效率,在MIT-OOC数据集上实现了90.8%的零弹药精度,而IJCAI22-Coco-OC-OOC数据集则在IJCAI222222222的数据集上实现了87.26%。
这项工作得到了国家科学技术重大项目(2022ZD0114900)的部分支持Horizon Europe框架通过可触及的项目(101092518)。(Zihang Zhao和Yuyang li对这项工作也同样贡献。相应的作者:Lecheng Ruan和Yixin Zhu。)Zihang Zhao和Yixin Zhu曾与中国北京大学100871北京大学的人工智能研究所一起(电子邮件:zhaozihang@stu@stu.pku.edu.edu.cn; yixin.zhu@pku.edu.edu.cn)。Yuyang Li和Zhenghao Qi曾在中国北京大学,北京大学,北京大学和北京通用人工智能研究所,中国北京100080,中国以及自动化部,北京大学,北京大学,北京大学,北京大学,北京大学,北京100084,中国(电子邮件): {liyuyang20,qi-zh21}@mails.tsinghua.edu.cn)。Wanlin Li与中国北京100080的北京通用人工智能研究所合作(电子邮件:liwanlin@bigai.ai)。Lecheng Ruan曾在中国北京100871的北京大学工程学院以及中国武汉430075的PKU-Wuhan人工智能研究所(Ruanlecheng@ucucla.edu)任职。Zihang Zhao和Lecheng Ruan在这项工作中也部分地在北京通用人工智能研究所中。数字对象标识符(DOI):请参阅此页面的顶部。Kaspar Althoefer曾在英国伦敦皇后大学伦敦皇后大学工程与材料科学学院内的高级机器人中心 @皇后玛丽(Queen Mary),伦敦E1 4NS(电子邮件:k.althoefer@qmul.ac.uk)。
尽管最近展示了视力模型的进步,但使用自然语言描述图像中复杂关系的能力,但它们对物体大小和距离进行定量研究的能力仍未得到充实。在这项工作中,我们介绍了一个手动注释的基准Q-As-Spatial Batch,其中有271个问题,旨在定量空间原因,并系统地研究了最新的VLMS对此任务的表现。我们的分析表明,对物体之间的差异的推理对SOTA VLM尤其挑战。但是,有些VLM的表现明显优于其他VLM,两个最佳性能模型之间的差距超过40点。我们还令人惊讶地观察到,当使用参考对象的推理路径在响应中自然出现时,表现最佳VLM的成功率会增加19点。受到这一观察的启发,我们开发了一种零射击提示技术,即“空间”,该技术鼓励VLMS使用参考对象作为视觉提示,从而鼓励VLMS进行定量的空间问题。通过指示VLM通过空间启示,Gemini 1.5 Pro,Gemini 1.5 Flash和GPT-4V在其理性路径中使用参考对象,将其成功率提高了40、20和30点,并显着地提高了其成功率。我们强调,可以获得这些重大改进,而无需更多的数据,模型架构修改或微调。1
太空领域的意识(SDA)对于确保空间操作的安全性和可持续性至关重要,尤其是当太空领域向有争议,退化和操作限制的环境过渡时。居民空间对象(RSO)的数量继续增长,传统的地面传感器面临覆盖范围和延迟的限制。这些传感器由于可预测的观察期而容易受到欺骗的影响。操纵可以将足够的错误引入轨道确定以引起轨道关联问题。此外,由于当前大多数高准确的SDA资产都是基于地面的,因此存在观测值的角度多样性。相关的是,随着月球和火星轨道政权变得越来越拥挤,SDA在这些地区的重要性将增长,对地面SDA面临重大挑战。
视觉接地(VG)旨在找到与给定自然语言表达式相匹配的前景实体。经典VG任务的先前数据集和方法主要依赖于先前的假设,即给定表达式必须从字面上参考目标对象,这极大地阻碍了代理在现实情况下的实际部署。由于用户倾向于为所需的对象提供基于意图的表达,而不是涵盖所有详细信息,因此代理商有必要解释意图驱动的说明。因此,在这项工作中,我们迈出了一个意图驱动的视觉语言(V-L)的一步。为了将经典的VG推广到人类意图解释,我们提出了一个新的意图驱动的视觉接地(IVG)任务,并构建一个以自由形式的意图来确定的大规模IVG数据集。考虑到实践代理需要在各种场景中移动并找到特定目标才能实现基础任务,因此我们的IVG任务和意图数据集将多个scenario感知和以Egipentric视图的关键属性考虑到了考虑。此外,将各种类型的模型设置为实现我们的IVG任务的基准。在我们的意图数据集和基线上进行的实验实验证明了我们对V-L领域方法的必要性和效率。为了朝着这个方向促进未来的研究,我们新建的数据集和基线将在https://github.com/rubics-xuan/ivg上公开获得。
摘要 - 可推广的感知是太空机器人技术中高级自治的支柱之一。估计动态环境中未知对象的结构和运动对于此类自主系统至关重要。传统上,解决方案依赖于目标对象的先验知识,多个不同的表示或不适合机器人操作的低保真输出。这项工作提出了一种新颖的方法,可以使用统一表示形式来逐步重建和跟踪动态未知对象 - 一组3D高斯斑点,描述了其几何形状和外观。可区分的3DGS框架适合以动态对象设置。管道的输入是一组顺序的RGB-D图像。3D重建和6-DOF姿势跟踪任务是使用基于一阶梯度的优化来解决的。该公式很简单,不需要预训练,不假定对对象或其运动的先验知识,并且适合在线应用程序。在任意相对运动下的10个未知航天器的数据集中验证了所提出的方法。实验表明,在短期到中持续时间内,目标对象的成功3D重建和准确的6-DOF跟踪。讨论了跟踪漂移的原因,并概述了潜在的解决方案。
新技术是为了使用轨道碎片通过电离层时产生的等离子体波来跟踪空间中的小物体[1,2,3]。已经对计算机模拟和实验室测量进行了研究。原位观察结果证实了这些等离子体波的存在是在空间传感器与已知空间对象的结合过程中进行的。小空间物体通过结构化环境时,也可以使用接地传感器和远程卫星仪器检测到。阿拉斯加的HAARP HF设施通过产生对齐的违规行为(FAI)提供了这种结构化环境。空间碎片和卫星通过这些不规则性会激发血浆排放,例如惠斯勒,压缩alfvén或较低的杂种波。当带电的空间对象遇到FAI时,轨道动能转换为电磁等离子体振荡而产生了惠斯勒波动扰动[3。4]。吹口哨者在距离源区域约9000 km/s的范围内繁殖,可以在几个地球 - 拉迪的范围内检测到。在加拿大Cassiope/Swarm-E航天器上的原位电场探头已检测到100 km的快速磁波。检测后,需要空间碎片地理位置才能更新轨道预测模型。从主机传感器的原位测量值可以从空间中电磁(EM)等离子体波的测量值提供范围和到达角度。从目标对象形成e x b poynting通量,从而产生其源方向。到达的角度需要EM场的矢量传感器,以从空间碎屑中给出入射信号的电(E)和磁性(H)矢量成分。这个方向的时间历史记录允许估计目标轨迹通过主机传感器平台通过。当带电的目标碎片越过田间对齐的不规则性时,它会发射一个分散波形,作为惠斯勒下调或磁通型上的速度。来自源点的传播在这些信号中引起时间分散,这些信号在时间和空间范围内都延伸。匹配的带有小波的信号的滤波器处理,等离子波形可以在特定的生成时间确定范围到源的范围。
摘要 - 关于可变形线性对象(DLO)操纵的大多数研究都假定刚性抓握。然而,除了刚性的抓握和重新抓紧之外,在掌握的范围之外,人类也是人类使用敏捷操纵DLOS的重要技能,它需要通过握住DLO来防止其掉落的同时通过手动滑动来连续更改抓握点。在没有使用专门设计但不是多功能的最终效果的情况下,实现这种技能对于机器人来说非常具有挑战性。以前的作品尝试使用通用的平行抓地力,但是由于关注和持有之间的冲突,它们的稳健性并不令人满意,这很难与一级自由的抓手保持平衡。在这项工作中,受到人类如何使用手指跟随DLOS的启发,我们探索了具有触觉感知的通用灵巧的手的用法,以模仿人类的技能并获得强大的DLO跟随。为了使硬件系统能够在现实世界中运行,我们开发了一个框架,其中包括笛卡尔空间手臂控制,基于触觉的In-Hand-hand 3-D DLO姿势估计以及特定于任务的运动设计。实验结果证明了我们方法比使用平行抓手的显着优势,以及它的稳健性,可推广性和效率。