摘要。多模式模型(例如剪辑)具有显着的零拍传输功能,使其在不断学习任务方面非常有效。然而,这种优势因灾难性遗忘而严重损害了这一优势,这破坏了这些模型的宝贵零击学习。现有方法主要集中于保存零拍的功能,但在完全利用多模式模型中固有的丰富模态信息方面通常不足。在本文中,我们提出了一种策略,以增强零射击转移能力和对新数据分布的适应性。我们引入了一种新型的基于图的多模式接近蒸馏方法,该方法保留了视觉和文本方式的内部和模式间信息。通过样本重新加权机制进一步增强了这种方法,并动态调整教师对每个样本的影响。实验结果证明了对现有方法的有很大改善,这说明了所提出的方法在持续学习领域的有效性。代码可在github.com/myz--ah/awoforget上找到。
通知和免责声明英特尔致力于尊重人权并避免在侵犯人权上的同谋。参见英特尔全球人权原则。Intel®产品和软件仅用于不造成或违反国际公认的人权的应用程序。Intel®技术可能需要启用硬件,软件或服务激活。没有绝对安全的产品或组件。您的成本和结果可能会有所不同。英特尔不控制或审核第三方数据。您应该咨询其他来源以评估准确性。©Intel Corporation。英特尔,英特尔徽标和其他英特尔商标是英特尔公司或其子公司的商标。其他名称和品牌可能被称为他人的财产。1124/na/cmd/pdf
瀑布是一个严重的公共卫生问题,65岁以上的人是跌倒最严重的病变之一。也有一个事实,即瀑布会对老人的心态产生负面影响,从而导致自尊心低下,因为它变得依赖一个不断监视他的人,除了不断去医院旅行之外。一种自然而实用的方法,用于脆弱的E-SASO运动人员,并需要立即跌倒。因此,这项工作提出并评估计算视觉模型,以改善有跌倒风险的个人的监测和安全性,例如老年人或流动性降低的人。该模型包括一个生成神经网络,时空卷积块,光流计算,跟踪感兴趣区域的技术以及用于计算异常分数的饲料强制神经网络。分析模型与红外记录一起工作也很重要,因为在弱光环境中也可能发生跌倒。分析包括以不同组合应用各种图像处理过滤器和技术,以寻求找到满足高灵敏度和高F1分数的模型。使用RGB摄像机的最终神经网络模型达到99.21%的延迟性和0.98 F1得分,而使用红外摄像机的模型达到100%灵敏度和0.98的F1得分,超过了其他文献建议。异源评分技术已被证明具有一种很好的适应能力,即使在新视频场景中曝光,也能够识别跌倒,也是在实际情况下使用系统的理想选择。
摘要 - 人类在循环(HITL)框架上是许多现实世界中的计算机视觉系统的特征,使人类操作员能够在AI帮助的情况下做出明智的决定。共形预测(CP)为标签集提供了严格的基于地面真相包容概率的保证,最近已成为HITL设置中有价值的工具。一个关键的应用领域是视频监视,与人类行动识别(HAR)紧密相关。这项研究探讨了CP在使用广泛预先训练的视觉模型(VLMS)的最先进的方法上的应用。我们的发现表明,CP可以显着减少候选类别的平均数量,而无需修改基础VLM。但是,这些减少通常会导致长尾巴的分布。为了解决这个问题,我们引入了一种基于调整VLM的温度参数以最小化这些尾巴的方法而无需其他校准数据的方法。我们的代码可在github上通过地址https://github.com/tbary/cp4vlm提供。索引项 - 符合预测,温度调整,视觉语言模型,人类行动识别。
视觉提问(VQA)是用户体验的关键,尤其是在改善视觉语言模型(VLMS)的概括能力之后。但在实际设置中使用标准化框架评估应用程序要求的VLM仍然具有挑战性。本文旨在使用端到端框架解决该问题。我们提出VQA360 - 一种源自估计的VQA基准测试的新型数据集,该数据集用任务类型,应用程序域和知识类型注释,以进行全面评估。我们还引入了Goeval,这是一种使用GPT-4O开发的多模式评估度量,与Human判断相关系数为56.71%。我们使用状态VLMS的实验表明,没有任何单个模型都普遍擅长,因此,将正确的选择成为关键的设计决策。专有模型(例如Gemini-1.5-Pro和GPT-4O-Mini)通常优于其他模型,但是诸如InternVL-2-8B和COGVLM-2-LALAMA-3-19B之类的开源模型也表现出竞争优势,同时提供了其他优势。我们的框架工作也可以扩展到其他任务1。
在广泛的数据集上预先训练的视觉语言模型(VLMS)可以通过将性别信息与特定对象或场景相关联,无意中地学习偏见。当前方法,该方法着重于修改输入并监视模型的输出概率分数的变化,通常从模型组件的角度来全面地偏见。我们提出了一个框架,该框架结合了因果中介分析,以确保并绘制VLM中偏见产生和传播的途径。我们的框架适用于广泛的视觉语言和多模式任务。在这项工作中,我们将其应用于对象检测任务并将其应用于GLIP模型。这种方法使我们能够确定干预措施对模型偏差的直接影响以及干预措施对通过不同模型组件介导的偏差的间接影响。我们的结果表明,图像效果是偏见的主要因素,其影响明显高于文本特征,特别是占MSCOCO和PASCAL-SONTIC数据集中偏见的32.57%和12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深层融合编码器的贡献。进一步的实验证实,语言和视力方式的贡献是对齐和不集中的。因此,在图像编码器中着重于模糊的性别表示,这对模型偏见做出了最大的贡献,在MSCOCO和PASCAL-SENTENCE数据集中,有效地降低了偏见22.03%和9.04%,并且具有最小的性能损失或增加的计算需求。1
抽象的人类经历是复杂而主观的。这种主观性以人们标记机器视觉模型标记图像的方式反映了。经常假定注释任务可以提供客观的结果,但该假设不允许人类经验的主观性。本文研究了主观人类判断在标记用于训练机器视觉模型的图像的行为任务中的含义。我们确定了歧义的三个主要来源:(1)图像中标签的描述可能简单地模棱两可,(2)评估者的背景和经验可以影响其判断力,以及(3)定义标签任务的方式也可能会影响评级者的判断。通过采取步骤解决这些歧义来源,我们可以创建更健壮和可靠的机器视觉模型。
尽管最近展示了视力模型的进步,但使用自然语言描述图像中复杂关系的能力,但它们对物体大小和距离进行定量研究的能力仍未得到充实。在这项工作中,我们介绍了一个手动注释的基准Q-As-Spatial Batch,其中有271个问题,旨在定量空间原因,并系统地研究了最新的VLMS对此任务的表现。我们的分析表明,对物体之间的差异的推理对SOTA VLM尤其挑战。但是,有些VLM的表现明显优于其他VLM,两个最佳性能模型之间的差距超过40点。我们还令人惊讶地观察到,当使用参考对象的推理路径在响应中自然出现时,表现最佳VLM的成功率会增加19点。受到这一观察的启发,我们开发了一种零射击提示技术,即“空间”,该技术鼓励VLMS使用参考对象作为视觉提示,从而鼓励VLMS进行定量的空间问题。通过指示VLM通过空间启示,Gemini 1.5 Pro,Gemini 1.5 Flash和GPT-4V在其理性路径中使用参考对象,将其成功率提高了40、20和30点,并显着地提高了其成功率。我们强调,可以获得这些重大改进,而无需更多的数据,模型架构修改或微调。1
摘要:计算机视觉是医学图像分析中的强大工具,支持对眼部疾病的早期检测和分类。糖尿病性视网膜病(DR)是继发于糖尿病的严重眼科疾病,伴随着危险性疾病的几个早期迹象,例如微型神经疗法(MAS),出血(Hemos)和渗出液(EXS),这些症状已被广泛研究并靶向由计算机视觉模型检测的对象。在这项工作中,我们测试了最先进的Yolov8和Yolov9 Architectures DR Feldus功能分割的表演,而无需编码经验或编程背景。我们从公共Messidor数据库中获取了一百个DR图像,并手动标记并准备了它们以进行像素分割,并测试了不同模型变体的检测能力。我们通过数据增强增加了训练样本的多样性,包括平铺,翻转和旋转眼底图像。在检测诸如MA,Hemo和ex之类的DR病变时,提出的方法达到了可接受的平均平均精度(MAP),以及眼睛后极的标志,例如视盘。我们将我们的结果与涉及不同神经网络的文献中的相关作品进行了比较。我们的结果是有希望的,但尚未准备好进入临床实践。必须进行准确的病变检测,以确保早期和正确的诊断。未来的工作将进一步研究病变检测,尤其是MA分割,并通过改进的提取技术,图像预处理和标准化数据集进行研究。
下背痛 (LBP) 是全球范围内导致残疾的主要因素,对健康和社会经济有着深远的影响。主要形式是非特异性下背痛 (NSLBP),缺乏可治疗的病理。针对个人需求和能力量身定制的主动物理干预对于管理下背痛至关重要。然而,NSLBP 的复杂性和临床分类系统的复杂性需要大量的临床培训,阻碍了个性化治疗的获得。机器学习和计算机视觉的最新进展表明,通过可穿戴传感器和光学运动捕捉来表征 NSLBP 改变的运动模式有望成为现实。本研究旨在开发和评估一种机器学习模型(即“BACK-to-MOVE”),用于 NSLBP 分类,该模型使用专家临床分类、标准视频中的脊柱运动数据以及患者报告的结果测量 (PROM) 进行训练。