处理VAD的最常见方法是单级学习[1],它仅在训练正常数据上训练异常检测模型,即没有异常,执行不同的辅助任务,例如重建和预测。主要的假设是对正常数据训练,模型无法正确重建或预测包含异常的视频帧。但是,此类方法只有在相当简单的数据集上表现良好,在这些数据集上可以通过视觉外观或运动来定义异常,并且在异常事件中包含高级语义信息(远程轨迹,个体或对象之间的相互作用)的视频上失败。存在其他方法来处理VAD,例如弱监督[2]或少量学习方法[3]。此类方法在培训中使用了一些异常示例,这些示例有助于捕获更复杂的异常,需要了解高级语义信息[4,5]。最近,视觉语言模型[6,7]由于能够处理图像和文本的能力而获得了很多知名度。他们的应用程序包括视觉问答(VQA),图像字幕和文本对图像搜索。在VAD中使用此类模型的优点在于它们不仅检测到视频异常,而且提供了它们的描述,这有助于更好地理解和解释发生异常[8]。在这次实习中,我们将使用VAD方法来处理需要通过在培训中使用一些异常样本来处理需要高级语义信息的异常。除了异常检测任务外,我们还将通过利用VLM模型来解决视频异常理解的问题。
主要关键词