egodex:从大规模以自我为中心的视频

模仿操纵的学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频。但是,现有的大规模数据集(例如EGO4D)没有本机姿势注释,也不关注对象操纵。为此,我们使用Apple Vision Pro来收集Egodex:迄今为止,最大,最多样化的人类操纵数据集。 Egodex有829个小时的Egentric视频,配对3D…

来源:Apple机器学习研究

模仿操纵的学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频。但是,现有的大规模数据集(例如EGO4D)没有本机姿势注释,也不关注对象操纵。为此,我们使用Apple Vision Pro来收集Egodex:迄今为止,最大,最多样化的人类操纵数据集。 Egodex具有829小时的以egecentric视频为中心的视频,并在录制时收集的配对3D手和手指跟踪数据,其中多个校准的摄像头和设备大满贯可用于精确跟踪每只手的每个关节的姿势。在194个不同的桌面任务中,数据集涵盖了各种不同的操纵行为,从绑带鞋带到折叠洗衣。此外,我们对数据集上的手轨迹预测进行训练和系统评估模仿学习政策,引入指标和基准测量,以衡量这个日益重要的领域的进度。通过释放此大规模数据集,我们希望推动机器人技术,计算机视觉和基础模型的前沿。

*平等贡献者

图1:Egodex是一种开源,大规模的以智力为中心的视频数据集和基准,用于灵活的人类操纵。