详细内容或原文请订阅后点击阅览
Sapiens:人类视觉模型的基础
大规模预训练和针对特定任务的语言建模微调取得了显著成功,这种方法已成为一种标准做法。同样,计算机视觉方法也逐渐采用大规模数据进行预训练。LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome 和 YFCC100M 等大型数据集的出现使得人们能够探索数据[…]The post Sapiens:人类视觉模型的基础首先出现在 Unite.AI 上。
来源:Unite.AI大规模预处理的取得了显着的成功,然后对语言建模进行特定于任务的微调已确立了这种方法作为标准实践。同样,计算机视觉方法正在逐步采用广泛的数据量表以进行预处理。大型数据集的出现,例如LAION5B,Instagram-3.5b,JFT-300M,LVD142M,Visual Genome和YFCC100M,使得能够探索远远超出传统基准范围的数据语料库。该领域的显着工作包括Dinov2,Maws和Aim。 Dinov2通过在LDV-142M数据集上缩放对比度IBOT方法来创造自我监督功能,从而实现最新的性能。 MAWS研究了数十亿张图像的蒙版自动编码器(MAE)的缩放。 AIM探讨了与视觉变压器相似的自回归视觉预处理的可扩展性。与这些方法相反,这些方法主要集中于一般图像预处理或零拍图像分类,Sapiens采用了一种明显的以人为中心的方法:Sapiens的模型利用了大量的人类图像进行预处理,随后进行了微调,以进行一系列与人相关的任务。对大规模3D人类数字化的追求仍然是计算机视觉中的关键目标。
计算机视觉智人:人类视觉模型的突破
Sapiens认为,这样的中心模型应满足三个标准:概括,广泛的适用性和高忠诚度。泛化可确保对看不见的条件的鲁棒性,从而使模型能够在各种环境中始终如一地执行。广泛的适用性表明该模型的多功能性,使其适用于具有最小修改的各种任务。高保真表示该模型产生精确的高分辨率输出的能力,对于忠实的人类发电任务至关重要。本文详细介绍了体现这些属性的模型的开发,这些属性统称为智人。
蒙版-AutoEncoder VIT