摘要。扩大视觉模型的规模已成为获得更强大的视觉表示形式的事实上的标准。在这项工作中,我们讨论了不需要更大的视力模型的观点。首先,我们演示了S镇定的S平原的力量(S 2),从而预先训练和冷冻较小的视力模型(例如,,vit-b或vit-l),在多个图像尺度上运行,可以胜过较大的模型(例如,VIT-H或VIT-G)在分类,分割,深度估计,多模式LLM(MLLM)基准和机器人操作中进行分类,分割,深度估计。值得注意的是,S 2在V ∗基准上的MLLM详细了解中实现了最先进的性能,超过了诸如GPT-4V之类的模型。我们检查了S 2是与模型尺寸的缩放相比,S 2是首选缩放方法。虽然较大的模型在硬性示例上具有更好的概括,但我们表明,多尺度较小模型的模型可以很好地近似较大的视觉模型。这表明当前大型预训练模型所学的大多数(如果不是全部)也可以从多尺度较小的模型中获得。我们的结果表明,多尺度较小的模型具有与较大模型的可比学习能力,并且具有S 2的预训练较小模型可以匹配甚至超过较大模型的优势。我们发布了一个可以在任何视觉模型上应用一条代码的python软件包:https://github.com/bfshi/scaling_on_scales。
摘要。多模式模型(例如剪辑)具有显着的零拍传输功能,使其在不断学习任务方面非常有效。然而,这种优势因灾难性遗忘而严重损害了这一优势,这破坏了这些模型的宝贵零击学习。现有方法主要集中于保存零拍的功能,但在完全利用多模式模型中固有的丰富模态信息方面通常不足。在本文中,我们提出了一种策略,以增强零射击转移能力和对新数据分布的适应性。我们引入了一种新型的基于图的多模式接近蒸馏方法,该方法保留了视觉和文本方式的内部和模式间信息。通过样本重新加权机制进一步增强了这种方法,并动态调整教师对每个样本的影响。实验结果证明了对现有方法的有很大改善,这说明了所提出的方法在持续学习领域的有效性。代码可在github.com/myz--ah/awoforget上找到。
台式标记,以测量VLM的零射门原因和一致性。我们评估了最新的VLM,发现即使表现最佳的模型也无法证明强大的视觉推理能力和一致性,这表明需要进行基础努力以使VLMS能够系统地和始终如一地像人类一样执行视觉推理。作为早期一步,我们提出了一个两阶段的培训框架,旨在提高VLM的推理和一致性而没有人类注释。该框架由两个主要阶段组成:监督的微调和从反馈中学习,以指导VLMS生成既有一致性又扎根的推理链。我们的框架工作在推理性能和一致性方面表现出4%的相对改善。我们在https://github.com/ yangyi-chen/cotconsistency上发布数据集。
近年来,基础模型已成为一个强大的框架,可以适应各种下游视觉任务。在遥感领域,先前的工作集中在特定于特定任务的特定任务模型上(例如,精确农业,目标识别,对象检测等来自特定的传感器)。在开发和部署任务不合时宜的通用模型中具有重大且新兴的兴趣,这些模型可以针对各种下游任务进行定制。同样,对部署视觉语言模型进行遥感也很感兴趣。本期特刊将为在基础模型,大型视觉模型和地球观察应用的交集中工作的研究人员提供途径,以贡献其最新研究。主题包括(但不限于):
下背痛 (LBP) 是全球范围内导致残疾的主要因素,对健康和社会经济有着深远的影响。主要形式是非特异性下背痛 (NSLBP),缺乏可治疗的病理。针对个人需求和能力量身定制的主动物理干预对于管理下背痛至关重要。然而,NSLBP 的复杂性和临床分类系统的复杂性需要大量的临床培训,阻碍了个性化治疗的获得。机器学习和计算机视觉的最新进展表明,通过可穿戴传感器和光学运动捕捉来表征 NSLBP 改变的运动模式有望成为现实。本研究旨在开发和评估一种机器学习模型(即“BACK-to-MOVE”),用于 NSLBP 分类,该模型使用专家临床分类、标准视频中的脊柱运动数据以及患者报告的结果测量 (PROM) 进行训练。
抽象的人类经历是复杂而主观的。这种主观性以人们标记机器视觉模型标记图像的方式反映了。经常假定注释任务可以提供客观的结果,但该假设不允许人类经验的主观性。本文研究了主观人类判断在标记用于训练机器视觉模型的图像的行为任务中的含义。我们确定了歧义的三个主要来源:(1)图像中标签的描述可能简单地模棱两可,(2)评估者的背景和经验可以影响其判断力,以及(3)定义标签任务的方式也可能会影响评级者的判断。通过采取步骤解决这些歧义来源,我们可以创建更健壮和可靠的机器视觉模型。
瀑布是一个严重的公共卫生问题,65岁以上的人是跌倒最严重的病变之一。也有一个事实,即瀑布会对老人的心态产生负面影响,从而导致自尊心低下,因为它变得依赖一个不断监视他的人,除了不断去医院旅行之外。一种自然而实用的方法,用于脆弱的E-SASO运动人员,并需要立即跌倒。因此,这项工作提出并评估计算视觉模型,以改善有跌倒风险的个人的监测和安全性,例如老年人或流动性降低的人。该模型包括一个生成神经网络,时空卷积块,光流计算,跟踪感兴趣区域的技术以及用于计算异常分数的饲料强制神经网络。分析模型与红外记录一起工作也很重要,因为在弱光环境中也可能发生跌倒。分析包括以不同组合应用各种图像处理过滤器和技术,以寻求找到满足高灵敏度和高F1分数的模型。使用RGB摄像机的最终神经网络模型达到99.21%的延迟性和0.98 F1得分,而使用红外摄像机的模型达到100%灵敏度和0.98的F1得分,超过了其他文献建议。异源评分技术已被证明具有一种很好的适应能力,即使在新视频场景中曝光,也能够识别跌倒,也是在实际情况下使用系统的理想选择。
大型语言和视觉模型正在改变我们处理和生成文本和图像的方式。模型,例如GPT-3,对大量文本和图像数据进行了培训,已在各种语言任务上达到了类似人类的性能。这有可能改变许多人类活动,包括教学,工业和科学。了解这些模型的工作方式以及如何使用它们可以导致人工智能和自然语言处理的新突破。研究大语言模型还可以提供有关人类交流的见解,并有助于我们对语言,图片,思想和智慧之间复杂关系的理解。班级有三个目标:向Caltech学生提供深入的LLVMS介绍探索LLVMS在科学上的应用开发教学材料进行动手探索和学习
1 Bravent 于 2022 年 8 月完成测试。英特尔 Geti 平台预生产版本。性能因使用情况、配置和其他因素而异。在性能指数站点上了解更多信息。性能结果基于截至配置中所示日期的测试,可能无法反映所有公开可用的更新。有关配置详细信息,请参阅备份。没有任何产品或组件能够绝对安全。您的成本和结果可能会有所不同。英特尔技术可能需要启用硬件、软件或服务激活。英特尔不控制或审核第三方数据。您应该咨询其他来源以评估准确性。英特尔致力于尊重人权并避免参与侵犯人权的行为。请参阅英特尔的全球人权原则。英特尔® 产品和软件仅用于不会导致或促成违反国际公认人权的应用程序。
机器视觉和认知神经成像技术的快速同步发展为(重新)评估人类视觉系统人工模型的现状提供了无与伦比的机会。在这里,我们对 85 种现代深度神经网络模型(例如 CLIP、BarlowTwins、Mask-RCNN)进行了大规模基准分析,以强大的统计能力表征架构和训练任务的差异如何影响对人类视觉系统 16 个不同区域的 fMRI 活动的预测。我们发现:第一,即使是鲜明的架构差异(例如 Transformers 和 MLP-mixer 中没有卷积)对大脑数据的紧急拟合也影响很小;第二,任务的差异有明显的影响——分类和自监督模型显示出相对更强的大脑预测能力;第三,特征重新加权可显着提高大脑预测能力,而不会过度拟合——产生模型到大脑的回归权重,这些权重在数千张新图像中对大脑反应的预测能力达到相同的水平。广义上,这项工作展示了现代深度神经网络模型的特征空间与人类视觉系统固有的表征结构之间出现的对应关系的概况。