摘要 - 有效而准确的3D对象形状重新构造显着贡献了机器人与环境的物理相互作用的成功。获取有关未知物体的准确形状信息具有挑战性,尤其是在非结构化环境中,例如视觉传感器可能只能提供部分视图。为了解决此问题,可以使用触觉传感器来提取本地表面信息,以进行更健壮的未知对象形状估计。在本文中,我们提出了一种新颖的方法,用于使用配备有触觉传感器的多指手工探索和重建的有效未知的3D对象探索和重建方法,并且仅提供部分视图。我们提出了一种多手指滑动触摸策略,以使用贝叶斯优化方法和单个领导者多手指的局部表面感知来有效地探索形状探索。我们通过基于仿真和实际机器人实验估算来自YCB和OCRTOC数据集的对象的3D形状来评估我们提出的方法。所提出的方法得出成功的重建结果,仅取决于几个连续的滑动触摸。实验结果表明,我们的方法能够以有效而准确的方式对未知对象进行建模。
一致性蒸馏是一种在一致性(轨迹)模型中采用的加速扩散模型的普遍方法,在该模型中,学生模型被训练以对概率流(PF)普通微分方程(PF)轨迹向后遍历,由教师模型确定。预处理是通过线性将输入数据和网络输出与预定义系数组合为一致性函数的稳定一致性蒸馏的重要技术。它强加了一致性函数的边界条件,而无需限制神经网络的形式和表现力。但是,先前的前提条件是手工制作的,可能是次优选择。在这项工作中,我们通过阐明其设计标准以及与教师ode轨迹的联系来提供对一致性蒸馏的预处理的第一个理论见解。基于这些分析,我们进一步提出了一种原则性的方式,以一种名为Analytic Tracent的方式,以根据一致性差距(以教师Denoiser和Optimal Student Denoiser之间的差距)对预处理进行分析优化预处理,从而对普遍的教师ODE进行了优化。我们证明了分析性可以促进轨迹跳线的学习,增强了学生创造力与教师的一致性,并在多个数据集的多步生成中实现一致性轨迹模型的2×至3×训练加速。
1 2 3使用膜蒸馏5 6 7 8 Jingbo Wang A†,Yiming Liu A†,Unnati Rao A,Mark Dudley B,Mark Dudledle B,Navid Dehdari Ebrahimi c,navide ebrahimi c,jingeeng y jincheng loub,jincheng fei han fei han, 1 2 3向膜/水界面进行热能的高盐盐盐水4,Mark Dudley B,Navid Dehdari Ebrahimi c,navide ebrahimi c,navide dehdari ebrahimi c,navid liu a, Hoek A,Nils Tilton B,Tzahi Y. Cath E,Craig S. Turchi F,Michael B. Heeley G,10 Y. Sungtaek Ju C,David Jassby A* 11 12 13 13 14 15加利福尼亚洛杉矶大学(UCLA)科罗拉多州矿业学院,机械工程系,美国加州大学戈尔登,加州大学哥伦比亚省19 c,机械与航空航天系,美国加利福尼亚州洛杉矶,美国加利福尼亚州洛杉矶20 D遗Hebei技术大学,公民与运输工程学院,公民与运输工程学院,中国21 E 21 E COORLADO矿业学院美国公司23 G科罗拉多州矿业学院,经济与商业部,美国戈尔登,美国24 25 *通讯作者[电话:(310)825-1346;电子邮件:jassby@ucla.edu] 26†这些作者同样贡献27 281 2 3向膜/水界面进行热能的高盐盐盐水4,Mark Dudley B,Navid Dehdari Ebrahimi c,navide ebrahimi c,navide dehdari ebrahimi c,navid liu a,Hoek A,Nils Tilton B,Tzahi Y. Cath E,Craig S. Turchi F,Michael B. Heeley G,10 Y. Sungtaek Ju C,David Jassby A* 11 12 13 13 14 15加利福尼亚洛杉矶大学(UCLA)科罗拉多州矿业学院,机械工程系,美国加州大学戈尔登,加州大学哥伦比亚省19 c,机械与航空航天系,美国加利福尼亚州洛杉矶,美国加利福尼亚州洛杉矶20 D遗Hebei技术大学,公民与运输工程学院,公民与运输工程学院,中国21 E 21 E COORLADO矿业学院美国公司23 G科罗拉多州矿业学院,经济与商业部,美国戈尔登,美国24 25 *通讯作者[电话:(310)825-1346;电子邮件:jassby@ucla.edu] 26†这些作者同样贡献27 28Hoek A,Nils Tilton B,Tzahi Y. Cath E,Craig S. Turchi F,Michael B. Heeley G,10 Y. Sungtaek Ju C,David Jassby A* 11 12 13 13 14 15加利福尼亚洛杉矶大学(UCLA)科罗拉多州矿业学院,机械工程系,美国加州大学戈尔登,加州大学哥伦比亚省19 c,机械与航空航天系,美国加利福尼亚州洛杉矶,美国加利福尼亚州洛杉矶20 D遗Hebei技术大学,公民与运输工程学院,公民与运输工程学院,中国21 E 21 E COORLADO矿业学院美国公司23 G科罗拉多州矿业学院,经济与商业部,美国戈尔登,美国24 25 *通讯作者[电话:(310)825-1346;电子邮件:jassby@ucla.edu] 26†这些作者同样贡献27 28
最近的研究表明,变压器可以通过模仿现有的RL算法来执行内在的增强学习(RL),从而使样本有效的适应能够适应无参数更新而无需看到的任务。但是,这些模型还继承了它们模仿的RL算法的次优行为。由于这些算法采用的逐渐更新规则,因此出现了此问题。基于模型的计划通过允许模拟在采取行动之前模拟潜在结果,提供了一种额外的机制来偏离次优行为,从而为这种限制提供了有希望的解决方案。我们没有学习Sepa-Rate Dynamics模型,而是提出了基于信用的RL框架(DICP)的蒸馏(DICP),在其中,变压器同时学习环境动力学并改善策略,并在内部进行改善。我们评估了跨多种离散和连续环境(包括暗室变体和元世界)的DICP。我们的结果表明,与基准相比,DICP可以达到最先进的性能,同时需要的环境相互作用要少得多,基本线包括无模型的对应物和现有的Meta-RL方法。该代码可在https://github.com/jaehyhyeon-son/dicp上获得。
摘要 - 简单的提示学习方法可有效地适应视觉语言模型(VLMS)到下游任务。然而,经验证据表明,现有方法的趋势是他们过度拟合的班级,并且在看不见的阶级上表现出降解的表现。此限制是由于训练数据中对所见类的固有偏见。为了解决这个问题,我们提出了一种新颖的软提示学习方法,称为蒸馏混合物(MOPD),该方法可以从硬手工制作的硬提示中有效地传递有用的知识(又称A.K.A.老师提示)到可学习的软提示(又称学生提示),从而增强了在看不见的课程上软提示的概括能力。此外,提出的MOPD方法采用了一个门控网络,该网络学会选择用于迅速蒸馏的硬提示。广泛的实验表明,所提出的MOPD方法的表现优于现状的基准,尤其是在看不见的类别上。
知识蒸馏(KD)旨在将知识从大型教师模型转移到较小的学生模型。虽然对比学习通过创建歧视性表示表现出了在自我监督学习中的希望,但其在知识蒸馏中的信息仍然有限,并且主要涉及歧视,忽略了教师模型捕获的结构关系。为了解决这一限制,我们提出了d Iscriminative and C On Consistent d Istillation(DCD),它采用了对比损失以及一致性正规化,以最大程度地减少教师和学生代表分布之间的差异。我们的方法引入了在训练过程中适应这些互补目标的可学习温度和偏置参数,以取代对比度学习方法中常用的固定超平衡器。通过CIFAR-100和Imagenet ILSVRC-2012的广泛实验,我们证明DCD实现了状态的表现,学生模型有时会超过教师的准确性。此外,我们表明DCD的所学表示形式将转移到小型成像网和STL-10 1时表现出较高的跨数据集泛化。
与SLMS相比,LLMS与人类偏好相比表现出Supe-050 Rior对齐(OpenAI,051 2024; Georgiev et al。,2024)。因此,ex-052 iSting Works llms作为教师提炼053偏好知识(Bai等人,054 2022; Cui等。,2023; Tunstall等。,2024; Wang 055等。,2024; Yuan等。,2024)。所有这些作品056模型在LLM中的模型偏好知识比较了成对响应。例如,Bai 058等。(2022)使用对059培训奖励模型的教师注释的响应,该奖励模型通过加强学习指导学生060。同样,Tunstall 061等。(2024)采用教师模型以偏爱-062 ence注释,但使用蒸馏的直接优先优化 - 064(Rafailov等人)直接优化了学生063模型(Rafailov等人。,2023)在注释数据集上。065然而,这些066“教师通知者”提供的监督信号采用订购067
人类表现出非常出色的技能,可以在不同形状,姿势和外观的对象中传递操纵能力,这是一种植根于他们对不同实例之间语义对应关系的理解的能力。为了为机器人提供类似的高级理解,我们提出了Sparsedff,这是一种新颖的DFF,用于3D场景,利用大型2D视觉模型从稀疏的RGBD图像中提取语义特征,该域与固定设置的许多任务相关,尽管它与许多任务相关。sparsedff生成视图一致的3D DFF s,通过将图像特征映射到3D点云,从而有效地对灵活性操作进行了有效的灵感操作学习。Sparsedff的中心是一个特征改进网络,通过视图和特征连续性的点式缩写机制之间的对比损失进行了优化。这有助于最小化特征差异W.R.T.最终效应参数,桥接演示和目标操作。在现实世界中用灵巧的手验证,Sparsedff证明有效地有效地操纵刚性和可变形的对象,表明对象和场景变化之间具有显着的概括能力。