摘要。在本文中,我们提出了Egolifter,这是一个新型的系统,可以自动将自我中心传感器捕获的场景分为单个3D对象的完整分解。该系统是针对以自然的(非扫描)运动捕获的数百个obs的现场设计的特定设计的。eGolifter采用3D高斯人作为3D场景和对象的基本表示形式,并使用段中的任何模型(SAM)的细分掩码作为薄弱的监督,以学习对对象实例的灵活定义,对对象实例的定义,没有任何特定的对象分类法。为了处理以自我为中心的视频中动态对象的挑战,我们设计了一个瞬态预测模块,该模块学会过滤3D重新构造中的动态对象。结果是一条全自动管道,能够将3D对象实例重建为3D高斯人的集合,共同构建了整个场景。我们在ARIA Digital Twin数据集上创建了一个新的基准测试,该基准在自然egipentric输入中定量地证明了其在开放世界3D分割中的最先进。我们在各种以自我为中心的活动数据集上运行Egolifter,该数据集显示了该方法在大规模上以3D为中心感知的希望。请访问https://egolifter.github.io/的项目页面。