EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video
模仿操纵的学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频。但是,现有的大规模数据集(例如EGO4D)没有本机姿势注释,也不关注对象操纵。为此,我们使用Apple Vision Pro来收集Egodex:迄今为止,最大,最多样化的人类操纵数据集。 Egodex有829个小时的Egentric视频,配对3D…