引言强大而稳定的抓握是成功机器人操作的关键要求之一。尽管在抓住领域取得了很大进步(Bohg等人2014),最新方法仍可能导致失败。iDe,机器人将足够快地检测出故障以纠正它们。此外,机器人应该能够从错误中学习,以避免将来的类似失败。为了应对这些挑战,我们建议在掌握的初始阶段使用早期的掌握稳定性预测。我们还提出了一种机器学习方法,该方法能够学习一种基于触觉感知并随着时间的推移而改善的纠正失败的graSps行为。在我们以前的工作中(Chebotar等人2016b),我们迈出了使用时空触觉特征和增强学习的第一步,朝着自主重新审向行为。我们能够证明,如果提供了足够的数据,则可以使用线性策略来学习简单的重新制定策略。但是,这些策略并不能比接受过培训的策略对其他类别的对象进行概括。造成这种缺点的主要原因是策略不足以捕获对象的不同形状和物理特性的丰富性。学习一个更复杂且可推广的策略的潜在可能是采用更复杂的政策类别,并收集许多带有各种对象的现实机器人数据来学习策略参数。在中提出了类似的方法(Finn等人这种解决方案的主要弱点是,除了需要大量数据外,这些复杂的政策通常会导致学习者陷入贫困的本地优点(Deisenroth,Neumann和Peters 2013)。在本文中,我们建议以监督的方式学习一项复杂的高维重新制定政策。我们的方法使用简单的线性策略来指导一般政策,以避免本地最小值差,并从较少的数据中学习一般政策。在政策搜索中使用监督学习的想法已在(Levine,Wagener和Abbeel 2015)中使用,在该搜索中,作者使用轨迹优化来指导政策学习过程,并将学习的政策应用于各种操纵任务。2015),作者在
[1] Jimmy Lei BA,Jamie Ryan Kiros和Geoffrey E. Hinton。层归一化。2016。Arxiv:1607.06450 [Stat.ml]。[2] Nanxin Chen等。Wavegrad:估计波形产生的梯度。2020。Arxiv:2009.00713 [Eess.as]。[3]凯瑟琳·克罗森(Katherine Crowson)。在CIFAR-10上训练扩散模型。在线。2024。URL:https://colab.research.google.com/drive/1ijkrrv-d7bosclvkhi7t5docryqortm3。[4]凯瑟琳·克罗森(Katherine Crowson)。v-diffusion。在线。2024。URL:https: / / github。com/crowsonkb/v-diffusion-pytorch/blob/master/diffusion/utils.py。[5] Ekin D. Cubuk等。randaugment:实用的自动化数据增强,并减少了搜索空间。2019。Arxiv:1909.13719 [CS.CV]。 [6] Yann N. Dauphin等。 通过封闭式卷积网络进行语言建模。 2017。Arxiv:1612.08083 [CS.CL]。 [7] Mostafa Dehghani等。 通用变压器。 2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1909.13719 [CS.CV]。[6] Yann N. Dauphin等。通过封闭式卷积网络进行语言建模。2017。Arxiv:1612.08083 [CS.CL]。[7] Mostafa Dehghani等。通用变压器。2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1807.03819 [CS.CL]。[8] Yilun Du和Igor Mordatch。基于能量的模型中的隐性产生和概括。2020。Arxiv:1903.08689 [CS.LG]。[9] Ian J. Goodfellow等。生成对抗网络。2014。Arxiv:1406.2661 [Stat.ml]。[10] Dan Hendrycks和Kevin Gimpel。高斯错误线性单元(Gelus)。2023。Arxiv:1606.08415 [CS.LG]。[11] Jonathan Ho,Ajay Jain和Pieter Abbeel。剥离扩散概率模型。2020。Arxiv:2006.11239 [CS.LG]。[12] Jonathan Ho和Tim Salimans。无分类器扩散指南。2022。ARXIV:2207.12598 [CS.LG]。[13]安德鲁·霍华德(Andrew Howard)等人。搜索MobilenetV3。2019。Arxiv:1905.02244 [CS.CV]。[14] Andrew G. Howard等。 Mobilenets:用于移动视觉应用的有效卷积神经网络。 2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。[14] Andrew G. Howard等。Mobilenets:用于移动视觉应用的有效卷积神经网络。2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。2017。Arxiv:1704.04861 [CS.CV]。[15] Forrest N. Iandola等。squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。2016。Arxiv:1602.07360 [CS.CV]。[16] Imagenet 64x64基准(图像生成)。用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。[17] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变性转移来加速深层网络训练。2015。Arxiv:1502.03167 [CS.LG]。[18] Diederik P. Kingma和Jimmy Ba。亚当:一种随机优化的方法。2017。Arxiv:1412.6980 [CS.LG]。[19] Diederik P. Kingma和Ruiqi Gao。将扩散目标理解为具有简单数据增强的ELBO。2023。Arxiv:2303.00848 [CS.LG]。[20] Diederik P. Kingma等。变化扩散模型。2023。Arxiv:2107.00630 [CS.LG]。[21] Zhenzhong Lan等。albert:一个精简版的语言表示学习。2020。Arxiv:1909.11942 [CS.CL]。[22] Ilya Loshchilov和Frank Hutter。重量衰减正则化。2019。Arxiv:1711.05101 [CS.LG]。[23] Preetum Nakkiran等。深度下降:更大的模型和更多数据损害。2019。Arxiv:1912.02292 [CS.LG]。[24] Alex Nichol和Prafulla Dhariwal。改进了扩散概率模型。2021。Arxiv:2102.09672 [CS.LG]。[25] Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu。像素复发性神经网络。2016。Arxiv:1601.06759 [CS.CV]。[26] Prajit Ramachandran,Barret Zoph和Quoc V. Le。搜索激活功能。2017。Arxiv:1710.05941 [CS.NE]。 [27] Danilo Jimenez Rezende和Shakir Mohamed。 差异推断与归一化流量。 2016。Arxiv:1505.05770 [Stat.ml]。2017。Arxiv:1710.05941 [CS.NE]。[27] Danilo Jimenez Rezende和Shakir Mohamed。差异推断与归一化流量。2016。Arxiv:1505.05770 [Stat.ml]。
[1]本·艾斯纳(Ben Eisner),哈里·张(Harry Zhang)和大卫(David Hold)。flowbot3d:学习3D表达流动以操纵表达的观察。arxiv预印arxiv:2205.04382,2022。1 [2] Haoran Geng,Ziming Li,Yiran Geng,Jiayi Chen,Hao Dong和He Wang。partManip:从点云观察到学习跨类别的可推广零件操纵策略。在IEEE/CVF计算机视觉和模式识别会议论文集,第2978-2988、2023页。2 [3] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang和Wang。gapartnet:跨类别域,可通过可概括和可行的部分操纵对象感知和操纵。在IEEE/CVF计算机视觉和模式识别会议论文集,第7081–7091页,2023年。1,2 [4] Yiran Geng,Boshi AN,Haoran Geng,Yuanpei Chen,Yaodong Yang和Hao Dong。机器人操纵的端到端舞蹈学习。arxiv预印arxiv:2209.12941,2022。2 [5] James J Gibson。 提供的理论。 Hilldale,美国,1(2):67–82,1977。 2 [6] Suhan Ling,Yian Wang,Shiguang Wu,Yuzheng Zhuang,Tianyi Xu,Yu Li,Chang Liu和Hao Dong。 铰接的物体操纵,用粗到精细的负担能力来降低点云噪声的效果。 ICRA,2024。 2 [7]刘刘,韦奇安格Xu,haoyuan fu,sufe Qian,Qiao-jun yu,Yang Han和Cewu lu。 AKB-48:一个现实世界中阐明的对象知识库。 在IEEE/CVF计算机视觉和模式识别会议论文集,第14809–14818页,2022年。2 [5] James J Gibson。提供的理论。Hilldale,美国,1(2):67–82,1977。 2 [6] Suhan Ling,Yian Wang,Shiguang Wu,Yuzheng Zhuang,Tianyi Xu,Yu Li,Chang Liu和Hao Dong。 铰接的物体操纵,用粗到精细的负担能力来降低点云噪声的效果。 ICRA,2024。 2 [7]刘刘,韦奇安格Xu,haoyuan fu,sufe Qian,Qiao-jun yu,Yang Han和Cewu lu。 AKB-48:一个现实世界中阐明的对象知识库。 在IEEE/CVF计算机视觉和模式识别会议论文集,第14809–14818页,2022年。Hilldale,美国,1(2):67–82,1977。2 [6] Suhan Ling,Yian Wang,Shiguang Wu,Yuzheng Zhuang,Tianyi Xu,Yu Li,Chang Liu和Hao Dong。铰接的物体操纵,用粗到精细的负担能力来降低点云噪声的效果。ICRA,2024。2 [7]刘刘,韦奇安格Xu,haoyuan fu,sufe Qian,Qiao-jun yu,Yang Han和Cewu lu。AKB-48:一个现实世界中阐明的对象知识库。在IEEE/CVF计算机视觉和模式识别会议论文集,第14809–14818页,2022年。2 [8] Kaichun MO,Leonidas J. Guibas,Mustafa Mukadam,Abhi-Nav Gupta和Shubham Tulsiani。其中2act:从pix-els到铰接3D对象的动作。在IEEE/CVF国际计算机愿景会议论文集(ICCV),第6813-6823页,2021年。1,2 [9] Chuanrou Ning,Ruihai Wu,Haoran Lu,Kaichun Mo和Hao Dong。其中2个口气:对于看不见的新型铰接对象类别的负担能力学习。在神经信息处理系统(神经)中的广告中,2023年。2 [10] Yusuke Urakami,Alec Hodgkinson,Casey Carlin,Randall Leu,Luca Rigazio和Pieter Abbeel。门口:可扩展的门打开环境和基线代理。ARXIV预印arxiv:1908.01887,2019。1,2 [11]学习开门操作的语义关键点表示。IEEE机器人技术和自动化Letters,5(4):6980–6987,2020。1 [12] Yian Wang,Ruihai Wu,Kaichun MO,Jiaqi KE,Qingnan Fan,Leonidas Guibas和Hao Dong。adaafford:通过几乎没有相互作用,学习适应3D铰接式物体的操纵负担。欧洲计算机录像会议(ECCV 2022),2022。2 [13] Ruihai Wu,Yan Zhao,Kaichun MO,Zizheng Guo,Yian Wang,Tianhao Wu,Qingnan Fan,Xuelin Chen,Leonidas Guibas和Hao Dong。增值税:学习视觉动作
