基线。我们主要与 CLIP(Radford 等人,2021 年)进行比较,后者在欧几里得空间中的单位超球面上嵌入图像和文本。CLIP 使用 4 亿个图像-文本对的私有数据集进行训练。一些后续工作重新实现了 CLIP 并使用可公开访问的数据集,如 YFCC(Thomee 等人,2016 年)、概念标题(Changpinyo 等人,2021 年;Sharma 等人,2018 年)和 LAION(Schuhmann 等人,2021 年;2022 年);值得注意的例子是 OpenCLIP(Ilharco 等人,2021 年)、SLIP(Mu 等人,2022 年)、DeCLIP(Li 等人,2022 年)和 FILIP(Yao 等人,2022 年)。我们开发了 CLIP 基线并使用单个公共数据集 RedCaps(Desai 等人,2021 年)对其进行训练,以便于重现。我们最小的模型使用 8 × V100 GPU 在不到一天的时间内进行训练,并且明显优于最近使用 YFCC(Mu 等人,2022 年)的 CLIP 重新实现。