视觉模型(VLM)的最新进步在弥合计算机视觉和自然语言处理之间的差距方面取得了重大飞跃。然而,传统的VLM通过对有限和嘈杂的图像文本对进行对比学习训练,通常缺乏空间和语言的理解,可以很好地推广到密集的视觉任务或更少的通用语言。我们的方法,坚实的基础剪辑(SF-CLIP),通过隐式建立对经过大量单峰数据训练的基础模型的可靠的视觉和语言理解来避免此问题。sf-clip将对比的图像文本预测与大型基础文本和视觉模型的掩盖知识蒸馏。这种方法可以指导我们的VLM开发强大的文本和图像表示。结果,SF-CLIP显示出异常的零射击分类精度,并增强了图像和文本检索能力,为在YFCC15M和CC12M上训练的VIT-B/16的新最新状态。此外,在语义分割任务中,密集的每个斑点监督增强了我们的零射击和线性探针的性能。我们模型的一个了不起的方面是它的多语言能力,尽管主要接受了英语数据的培训,但通过多种语言的强劲检索结果证明了这一点。我们通过选择性地应用掩盖的蒸馏和教师单词嵌入的继承来实现所有这些改进,而无需牺牲培训效率。
用于半分割的大多数现有知识蒸馏方法着重于从原始特征中提取各种复杂知识。但是,这种知识通常是手动设计的,并且像传统功能工程一样依赖于先前的知识。在本文中,我们旨在提出一种使用RAW功能的简单有效的功能蒸馏方法。为此,我们重新审视了功能蒸馏中的开创性工作,Fitnets可以将平方误差(MSE)损失(MSE)损失最小化。我们的实验表明,在某些情况下,这种幼稚的方法可以产生良好的结果,甚至超过了一些精心设计的方法。但是,它需要仔细调整蒸馏损失的重量。通过将fitnets的损失函数分解为差异项和角度差项,我们发现角度差异项的重量受教师特征和学生特征的幅度的影响。我们通过实验表明,角度差异项在特征蒸馏中起着至关重要的作用,而不同模型产生的特征的大小可能会有很大变化。因此,很难确定各种模型的适合减肥体重。为了避免角度蒸馏术语的重量受到特征的影响,我们提出了角度蒸馏,并探索沿不同效率尺寸的蒸馏角度信息,以进行语义分割。广泛的例子表明,我们的简单方法对超级参数表现出极大的效果,并实现了语义细分的最先进的蒸馏性能。
扩散模型在产生各种自然分布的高分辨率,逼真的图像方面取得了巨大的成功。但是,他们的性能在很大程度上依赖于高质量的培训数据,这使得从损坏的样本中学习有意义的分布变得具有挑战性。此限制限制了它们在稀缺或昂贵的科学领域中的适用性。在这项工作中,我们引入了DeNoising评分蒸馏(DSD),这是一种出奇的有效和新颖的方法,用于训练低质量数据的高质量生成模型。DSD首先预修了一个扩散模型,专门针对嘈杂,损坏的样品,然后将其提炼成能够生产精制,干净的输出的单步生成器。传统上将得分蒸馏视为加速扩散模型的一种方法,但我们表明它也可以显着提高样本质量,尤其是从退化的教师模型开始时。在不同的噪声水平和数据集中,DSD始终提高生成性能 - 我们在图中总结了我们的经验证据1。此外,我们提供了理论见解,表明在线性模型设置中,DSD识别了干净的数据分散协方差矩阵的特征空间,并隐含地正规化了生成器。此透视图将蒸馏片重新升级为效率的工具,而且是改善生成模型的机制,尤其是在低质量的数据设置中。
知识蒸馏(KD)旨在将知识从大型教师模型转移到较小的学生模型。虽然对比学习通过创建歧视性表示表现出了在自我监督学习中的希望,但其在知识蒸馏中的信息仍然有限,并且主要涉及歧视,忽略了教师模型捕获的结构关系。为了解决这一限制,我们提出了d Iscriminative and C On Consistent d Istillation(DCD),它采用了对比损失以及一致性正规化,以最大程度地减少教师和学生代表分布之间的差异。我们的方法引入了在训练过程中适应这些互补目标的可学习温度和偏置参数,以取代对比度学习方法中常用的固定超平衡器。通过CIFAR-100和Imagenet ILSVRC-2012的广泛实验,我们证明DCD实现了状态的表现,学生模型有时会超过教师的准确性。此外,我们表明DCD的所学表示形式将转移到小型成像网和STL-10 1时表现出较高的跨数据集泛化。
摘要 - 简单的提示学习方法可有效地适应视觉语言模型(VLMS)到下游任务。然而,经验证据表明,现有方法的趋势是他们过度拟合的班级,并且在看不见的阶级上表现出降解的表现。此限制是由于训练数据中对所见类的固有偏见。为了解决这个问题,我们提出了一种新颖的软提示学习方法,称为蒸馏混合物(MOPD),该方法可以从硬手工制作的硬提示中有效地传递有用的知识(又称A.K.A.老师提示)到可学习的软提示(又称学生提示),从而增强了在看不见的课程上软提示的概括能力。此外,提出的MOPD方法采用了一个门控网络,该网络学会选择用于迅速蒸馏的硬提示。广泛的实验表明,所提出的MOPD方法的表现优于现状的基准,尤其是在看不见的类别上。
与SLMS相比,LLMS与人类偏好相比表现出Supe-050 Rior对齐(OpenAI,051 2024; Georgiev et al。,2024)。因此,ex-052 iSting Works llms作为教师提炼053偏好知识(Bai等人,054 2022; Cui等。,2023; Tunstall等。,2024; Wang 055等。,2024; Yuan等。,2024)。所有这些作品056模型在LLM中的模型偏好知识比较了成对响应。例如,Bai 058等。(2022)使用对059培训奖励模型的教师注释的响应,该奖励模型通过加强学习指导学生060。同样,Tunstall 061等。(2024)采用教师模型以偏爱-062 ence注释,但使用蒸馏的直接优先优化 - 064(Rafailov等人)直接优化了学生063模型(Rafailov等人。,2023)在注释数据集上。065然而,这些066“教师通知者”提供的监督信号采用订购067
摘要:了解机器人必须在给定开放式任务中的非结构化环境中操纵对象。但是,现有的视觉负担预测方法通常仅在一组预定义的任务上手动注释的数据或条件。我们介绍了无监督的负担蒸馏(UAD),这是一种将负担知识从基础模型提炼到任务条件的辅助模型的方法,而无需任何手动注释。通过利用大型视觉模型和视觉模型的互补优势,UAD自动注释了一个具有详细的<指令,Visual Profiseance> Pairs的大规模数据集。仅在冷冻功能上训练一个轻巧的任务条件解码器,尽管仅在模拟中接受了对渲染的对象的培训,但UAD对野外机器人场景和各种人类活动表现出显着的概括。UAD提供的可负担性作为观察空间,我们展示了一项模仿学习政策,该政策证明了有希望的概括,可以看到对象实例,对象类别,甚至在培训大约10次演示后进行任务指令的变化。项目网站:https://gpt-affordance.github.io/。
摘要。近年来,已经在自动驾驶中调查了大型视力和语言模型(VLM),以解决长期存在的问题,包括推理,概括和长尾方案。但是,将VLM的有效整合到自主驾驶框架中仍然是一个悬而未决的问题。在本文中,我们提出了VLP,这是一个新颖的视觉语言规划框架,它利用了大型视觉语言模式来弥合语言理解与自动驾驶之间的差距。VLP是一种训练方法,它通过提出对比度学习目标来提炼VLM的力量到端到端模块化自主驾驶。在开路和闭环任务上进行了广泛的实验,验证了VLP的实用性。尤其是,VLP通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,在Nuscenes数据集上实现了状态的端到端计划绩效。
