摘要 - 简单的提示学习方法可有效地适应视觉语言模型(VLMS)到下游任务。然而,经验证据表明,现有方法的趋势是他们过度拟合的班级,并且在看不见的阶级上表现出降解的表现。此限制是由于训练数据中对所见类的固有偏见。为了解决这个问题,我们提出了一种新颖的软提示学习方法,称为蒸馏混合物(MOPD),该方法可以从硬手工制作的硬提示中有效地传递有用的知识(又称A.K.A.老师提示)到可学习的软提示(又称学生提示),从而增强了在看不见的课程上软提示的概括能力。此外,提出的MOPD方法采用了一个门控网络,该网络学会选择用于迅速蒸馏的硬提示。广泛的实验表明,所提出的MOPD方法的表现优于现状的基准,尤其是在看不见的类别上。
与SLMS相比,LLMS与人类偏好相比表现出Supe-050 Rior对齐(OpenAI,051 2024; Georgiev et al。,2024)。因此,ex-052 iSting Works llms作为教师提炼053偏好知识(Bai等人,054 2022; Cui等。,2023; Tunstall等。,2024; Wang 055等。,2024; Yuan等。,2024)。所有这些作品056模型在LLM中的模型偏好知识比较了成对响应。例如,Bai 058等。(2022)使用对059培训奖励模型的教师注释的响应,该奖励模型通过加强学习指导学生060。同样,Tunstall 061等。(2024)采用教师模型以偏爱-062 ence注释,但使用蒸馏的直接优先优化 - 064(Rafailov等人)直接优化了学生063模型(Rafailov等人。,2023)在注释数据集上。065然而,这些066“教师通知者”提供的监督信号采用订购067
摘要:了解机器人必须在给定开放式任务中的非结构化环境中操纵对象。但是,现有的视觉负担预测方法通常仅在一组预定义的任务上手动注释的数据或条件。我们介绍了无监督的负担蒸馏(UAD),这是一种将负担知识从基础模型提炼到任务条件的辅助模型的方法,而无需任何手动注释。通过利用大型视觉模型和视觉模型的互补优势,UAD自动注释了一个具有详细的<指令,Visual Profiseance> Pairs的大规模数据集。仅在冷冻功能上训练一个轻巧的任务条件解码器,尽管仅在模拟中接受了对渲染的对象的培训,但UAD对野外机器人场景和各种人类活动表现出显着的概括。UAD提供的可负担性作为观察空间,我们展示了一项模仿学习政策,该政策证明了有希望的概括,可以看到对象实例,对象类别,甚至在培训大约10次演示后进行任务指令的变化。项目网站:https://gpt-affordance.github.io/。
摘要。近年来,已经在自动驾驶中调查了大型视力和语言模型(VLM),以解决长期存在的问题,包括推理,概括和长尾方案。但是,将VLM的有效整合到自主驾驶框架中仍然是一个悬而未决的问题。在本文中,我们提出了VLP,这是一个新颖的视觉语言规划框架,它利用了大型视觉语言模式来弥合语言理解与自动驾驶之间的差距。VLP是一种训练方法,它通过提出对比度学习目标来提炼VLM的力量到端到端模块化自主驾驶。在开路和闭环任务上进行了广泛的实验,验证了VLP的实用性。尤其是,VLP通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,在Nuscenes数据集上实现了状态的端到端计划绩效。
•库存管理:协助监视和管理库存水平,以确保最佳的库存可用性并最大程度地减少中断。•物流协调:支持物流团队协调货物,跟踪交付和确保及时分发产品。•数据分析:分析供应链数据以识别趋势,差异和过程改进的机会。•供应商通讯:协助与供应商进行沟通以促进采购流程并解决任何供应问题。•过程改进:参与旨在提高供应链效率和有效性的正在进行的项目。
带有2D材料的膜表面涂层已显示出用于水处理应用的防婚特性。但是,目前基于真空过滤的合成方法不容易缩放。本研究描述了一种可扩展的方法,可用于涂层膜,包括氧化石墨烯(GO),六边形硝酸氢硼(HBN),二硫化钼(MOS 2)和二硫化钨(WS 2)。使用含氧剂将含有每类2D薄片的异丙基醇溶液喷涂到商业聚偏氟化物(PVDF)上。纳米材料用聚多巴胺(PDA)作为一个可以轻松地集成到可扩展的滚动过程中的方法中的交联。使用扫描电子显微镜,原子力显微镜,接触角,拉伸强度测量和傅立叶转换红外光谱法评估了形态,表面粗糙度,疏水性,机械耐用性和化学组成的变化。在72 h的膜蒸馏(MD)实验中测试了2D纳米材料涂层的膜,并将其与原始的PVDF和PDA/PVDF膜进行了比较。使用高浓度的腐殖酸(150 ppm)和石蜡油(200 ppm)的盐排斥和MD性能稳定性评估,从而模拟了从油气萃取中模拟简单的有机废水。通量下降比以每小时渗透率损失百分比(%/h)来衡量,以便将来与不同的实验时间进行比较。所有膜的盐分排斥很高(> 99.9%)。原始的PVDF膜在10小时后因结垢而导致孔隙润湿失败,而PDA/PVDF膜的通量下降率最大(0.3%/小时)。涂有GO和HBN的膜的通量下降比较低(分别为0.0021±0.005和0.028±0.01%/h)。Go涂层的膜是唯一能够治疗含有表面活性剂和含有污垢的饲料的膜类型。改进的性能归因于表面粗糙度和疏水性的降低,这降低了污垢表面上的污垢吸附。这项工作显示了一种可延展的可扩展方法来克服MD中的犯规限制。
文本属性图(标签)是连接的文本文档的图。图形模型可以有效地学习标签,但是它们的培训在很大程度上依赖于人类通知的标签,在许多应用中,这些标签稀缺甚至无法使用。大型语言模型(LLMS)最近在少数拍和零标签学习方面表现出了显着的功能,但它们遭受了可扩展性,成本和隐私问题的困扰。因此,在这项工作中,我们通过将LLM的功率提炼成Tag学习的本地图模型来协同LLM和图形模型,并具有互补的优势。要解决LLMS(文本的生成模型)和图形模型(图形的歧视模型)之间的固有差距,我们首先提议让LLMs用丰富的理由教授解释器,然后让学生模型模仿解释器的推理,而没有LLMS的理由。我们将LLM的文本原理转换为多级图理由,以训练解释器模型,并根据标签的功能将学生模型与解释器模型保持一致。广泛的实验验证了我们提出的框架的功效。
文本属性图(标签)是连接的文本文档的图。图形模型可以有效地学习标签,但是它们的培训在很大程度上依赖于人类通知的标签,在许多应用中,这些标签稀缺甚至无法使用。大型语言模型(LLMS)最近在少数拍和零标签学习方面表现出了显着的功能,但它们遭受了可扩展性,成本和隐私问题的困扰。因此,在这项工作中,我们通过将LLM的功率提炼成Tag学习的本地图模型来协同LLM和图形模型,并具有互补的优势。要解决LLMS(文本的生成模型)和图形模型(图形的歧视模型)之间的固有差距,我们首先提议让LLMs用丰富的理由教授解释器,然后让学生模型模仿解释器的推理,而没有LLMS的理由。我们将LLM的文本原理转换为多级图理由,以训练解释器模型,并根据标签的功能将学生模型与解释器模型保持一致。广泛的实验验证了我们提出的框架的功效。
通过分析以自我为中心的视频的分析,抽象理解人类行动是智能代理人的理想能力,并且是一个最近越来越受欢迎的研究领域。到目前为止,大多数以自我为中心的(视频)动作识别(EAR)的方法,即,根据预定义的自然语言描述(动作)对给定的视频剪辑进行分类的任务,代表目标动作类(标签)使用一个hot编码,从而忽略了某些动作之间的任何关系或相似性。这项工作的目标是通过利用预先训练的语言模型中编码的先前存在的知识来增强视觉模型的概括能力。具体来说,我们提出了一个语言知识蒸馏框架,以将预训练的语言模型对动作(文本中表达)的知识(在文本中表达)提高到视觉模型。我们不使用标签的单热编码表示,而是将所有动作类别(由语言模型构成)的概率分布作为教学信号。我们的实验表明,我们的框架根据Epic-Kitchens,Something of Something V2等基准获得了EAR的性能和泛化能力。
