摘要 - 人类在循环(HITL)框架上是许多现实世界中的计算机视觉系统的特征,使人类操作员能够在AI帮助的情况下做出明智的决定。共形预测(CP)为标签集提供了严格的基于地面真相包容概率的保证,最近已成为HITL设置中有价值的工具。一个关键的应用领域是视频监视,与人类行动识别(HAR)紧密相关。这项研究探讨了CP在使用广泛预先训练的视觉模型(VLMS)的最先进的方法上的应用。我们的发现表明,CP可以显着减少候选类别的平均数量,而无需修改基础VLM。但是,这些减少通常会导致长尾巴的分布。为了解决这个问题,我们引入了一种基于调整VLM的温度参数以最小化这些尾巴的方法而无需其他校准数据的方法。我们的代码可在github上通过地址https://github.com/tbary/cp4vlm提供。索引项 - 符合预测,温度调整,视觉语言模型,人类行动识别。
主要关键词