用于文本分析的抽象数字工具长期以来对于数字化库集合的可访问性和可访问性至关重要。最近的计算机视觉进步引入了类似的视觉材料功能,基于深度学习的嵌入显示了分析视觉遗产的希望。鉴于许多书籍还具有文本外,还具有视觉效果,因此利用这些突破对于使图书馆的收藏馆开放和易于访问至关重要。在这项工作中,我们提出了概念验证图像搜索应用程序,用于探索挪威国家图书馆1900年前的书籍中的图像,比较视觉变压器(VIT),对比性语言图像预训练(CLIP)和语言损失的语言损失 - 图像预训练(Siglip)(Siglip)的嵌入图像检验和分类。我们的结果表明,该应用程序在精确的图像检索中表现良好,在检索和分类任务中,siglip嵌入片段略优于剪辑和VIT。此外,基于siglip的图像分类可以有助于从数字化管道中清洁图像数据集。
自我监督的表示学习(SSL)(Balesteriero等人,2023年)近年来已经成为表示学习的基石。诸如Openai剪辑之类的模型(Radford等人,2021)示例SSL方法如何产生适用于广泛下游任务的表达性表示。此范式依赖于配对的观测值(配对的视图或共享相同内容的方式)来提取有意义的特征。从广义上讲,SSL方法分为两类:歧视性和生成性(或基于重建)。歧视性SSL(Chen等人,2020年)旨在确保比随机采样观测值在潜在空间中更接近配对观测的表示。相反,基于重建的SSL(He等人,2022)涉及从其对中重建一个观察结果。在多视图设置中,数据增强技术(例如图像裁剪和颜色抖动)通常用于人为地创建单个单个观测值。在这些增强中,事实证明,图像裁剪特别有影响力,推动了视觉学习模型(例如Meta's Dino)(Caron等人,2021; Oquab等。,2023)和JEPA(Assran等人,2023)。最近的研究(Bizeul等人,2024)1表明,在图像域中,掩盖(概念上类似于裁剪),而不是单个图像像素可以生成图像对,从而促进基于重建的SSL中表达特征的学习。,2023)。在这个项目中,我们的目标是投资于将类似方法应用于歧视性SSL是否可以产生可比的好处,专门针对Dino,Jepa和Siglip(Zhai等人。