摘要 - 在许多机器人应用中重建三维(3D)场景至关重要。机器人需要识别哪些对象及其位置和形状,以通过给定的任务精确地操纵它们。移动机器人,尤其是通常使用轻质网络在RGB图像上细分对象,然后通过深度图进行定位;但是,他们经常会遇到掩盖物体过度掩盖的分布场景。在本文中,我们通过使用非参数统计方法来完善分割错误来解决3D场景重建中的跨分割质量的问题。为了提高掩模的精度,我们将预测的遮罩映射到深度框架中,以通过内核密度估算它们的分布。然后,对异常值进行深度感知的拒绝,而无需以自适应方式进行额外的pa-rameters,以使其分布外情景,然后使用投影签名的距离函数(SDFS)进行3D重建。我们在合成数据集上验证了我们的方法,该方法显示了全景映射的定量和定性结果的改进。通过现实世界测试,结果还显示了我们方法在实体机器人系统上部署的能力。我们的源代码可在以下网址提供:https://github.com/mkhangg/refined Panoptic映射。
现有的基于LIDAR的3D对象检测方法主要采用从划线范式进行训练。不幸的是,这种范式在很大程度上重新确定了大规模标记的数据,其收集可以充分陈述且耗时。自我监管的预训练是一种减轻这种依赖对广泛注释数据的有效且理想的方法。在这项工作中,我们提出了一种有效的掩盖自动编码器预训练框架 - 基于LIDAR的3D对象检测的自动驾驶前训练框架。具体来说,我们提出了鸟类视图(BEV)指导性掩盖策略,以指导3D编码器学习功能表示BEV的角度,并避免在预训练期间使用综合解码器设计。此外,我们还可以学习一个可学习的点令牌,以维持3D编码器的一致的回收字段大小,并进行微调的遮罩云输入。基于自主驾驶场景中室外点云的属性,即,遥远对象的点云更为稀疏,我们提出了点的预测,使3D编码器能够学习位置信息,这对于对象检测至关重要。实验结果表明,BEV-MAE超过了先前的自我监管方法,并实现了有利的预训练效率。此外,基于输血-L,BEV-MAE在基于Nuscenes的基准上获得了73.6 NDS和69.6 MAP的新最先进的3D对象检测结果。源代码将在https://github.com/vdigpku/bev-mae上发布。
如分子生物学的中心教条所示,DNA,RNA和蛋白之间的相互作用是生物过程的基础。现代生物学预训练的模型在分析这些大分子方面取得了巨大的成功,但它们的感染性质仍未得到探索。在本文中,我们遵循Central Dogma的指导来重新设计数据和模型管道,并提供一个全面的框架,即生命代码,这些框架涵盖了不同的生物功能。至于数据流,我们提出了一条统一的管道来通过将RNA转录并反向翻译为基于核苷酸的序列来整合多词数据。至于模型,我们设计了一个密码子令牌和混合长期架构,以用遮罩的建模预训练编码编码和非编码区域的相互作用。通过编码序列对翻译和折叠过程进行建模,生命代码通过从现成的蛋白质语言模型中的知识分离来学习相应的氨基酸的蛋白质结构。这样的设计使生命代码能够在遗传序列中捕获复杂的相互作用,从而更全面地了解了与中央教条的多摩学。广泛的实验表明,生命代码在三个OMIC的各种任务上实现了状态绩效,突出了其进步多摩学分析和解释的潜力。
基于深度学习(DL)的一般图像表示学习(IRL)对于卫星图像引起了极大的兴趣,因为它的能力:i)通过自我监督的学习来模拟大量的大量免费可用遥感(RS)数据,从而大大降低了标记数据的要求; ii)将各种RS问题概括为下游任务。基于学习的方法最初为在RS图像上使用自我监督的IRL铺平了道路(例如[1],[2])。这种方法通过最大化同一图像的两种观点之间的一致性来对卫星图像表示与卷积神经网络(CNN)进行对比度学习,这是通过数据增强策略生成的。关于RS IRL的最新研究集中在卫星图像的掩盖数据建模上,例如[3] - [10]。他们通过遮罩的自动编码器(MAE)促进了自我监督的学习,并具有视觉变压器(VITS)。通过重建卫星图像,用遮盖的零件执行有效的IRL,即他们学习了描述图像的视觉内容的功能,这些功能可用作调整下游任务的专用模型的起点。最近对MAE对卫星图像IRL的兴趣取决于两个主要原因。首先,与对比的自我监督学习相反,MAE能够学习图像表示,而无需应用任何数据增强策略。这对于卫星图像特别重要,因为大多数数据增强策略都是为自然图像而设计的,并且它们直接适应卫星可能总是可行的。)。第二,已经表明,与VIT相结合的MAE可以根据训练数据的数量成比例地将其缩放到较大的DL模型中[11],[12]。但是,当使用MAE时,所得图像表示往往为较低的语义水平[13]。这防止了他们的全部潜力,用于需要更高级别卫星图像语义的许多下游任务(例如,场景分类,土地地图生成等。
图1神经认知数据和统计分析的处理步骤。首先,使用T1加权解剖图像来计算皮质表面积和皮质厚度的估计值。第二,根据HCPMMP地图集,将T1加权的解剖图像分为每个半球180个皮层结构,每个半球8个皮层结构。第三,将所得的遮罩线性转化为静止状态和扩散加权图像的天然空间。对于扩散加权图像,使用上述面膜作为种子和靶区域进行概率纤维跟踪。对于静止状态图像,计算了所有大脑区域的平均粗体时间课程之间的相关性。第四,结构和功能网络构建。边缘通过概率纤维拖拉术或粗体信号相关的结果加权。第五,这些网络用于计算全球效率测量RSFMRI E和DWI E以及淋巴结效率测量RSFMRI EI和DWI EI。第六,针对脑度量和PG的每种组合进行了全球调解分析。 在此,由I-S-T 2000 R总分量化的通用智能用作因变量。 自变量是两个PG(PGS EA和PGS GI)之一。 全脑量度(总表面积,平均皮质厚度,DWI E或RSFMRI E)用作介体。 最后,针对大脑指标和PG的每种组合,通过弹性网状回归进行了特定区域的多媒体分析。第六,针对脑度量和PG的每种组合进行了全球调解分析。在此,由I-S-T 2000 R总分量化的通用智能用作因变量。自变量是两个PG(PGS EA和PGS GI)之一。全脑量度(总表面积,平均皮质厚度,DWI E或RSFMRI E)用作介体。最后,针对大脑指标和PG的每种组合,通过弹性网状回归进行了特定区域的多媒体分析。再次,I-S-T 2000 R总分是因素,PGS是自变量。表面积,皮质厚度,DWI EI或每个HCPMMP区域的RSFMRI EI用作介体。