近年来,多模态领域在计算机视觉领域引起了极大的兴趣,它已被证明非常强大,可以让模型从原始文本而不是手动注释中学习视觉概念。使用这一概念的一个特定模型是 CLIP [1],它在一般的零样本图像分类任务中表现出了最先进的性能。然而,很少有研究探讨 CLIP 在专门任务中的竞争力。为了填补这一空白,本报告探讨了 CLIP 模型是否可以使用从社交媒体收集的威胁相关数据成功地适应安全情报领域,同时使用与原始文章相同的训练任务。此外,我们还探讨了 CLIP 的图像文本对齐功能如何用于多模态事件分类。除了传统的监督方法(其中 CLIP 用于特征提取)之外,我们还提出了一种使用 CLIP 的零样本功能进行事件分类的新方法。我们的微调模型和预训练的 CLIP 模型并行用于这两种方法,以比较性能。我们的结果表明,CLIP 可以在社交媒体数据上成功进行微调,其零样本图像标题匹配能力提高了 2%。此外,我们还表明,我们的新方法实现了 22% 的 AUC 得分,而传统方法实现了 74% 的 AUC 得分,这导致我们得出结论,使用 CLIP 的先天零样本能力进行事件分类需要
主要关键词