G. Denaro,D。Gaglione,N。Forti,A。 Simone,F。Daffina,G。Bottini,D。Quattrociocchi,L.Millefiori,P.Braca,S。Carniel,P。Willett,A。Iodice,D。Riccio,D。Riccio,A。Farina,“空间全球海上监视”。 第一部分:卫星技术,“ IEEE航空和电子系统杂志,2021年。Simone,F。Daffina,G。Bottini,D。Quattrociocchi,L.Millefiori,P.Braca,S。Carniel,P。Willett,A。Iodice,D。Riccio,D。Riccio,A。Farina,“空间全球海上监视”。第一部分:卫星技术,“ IEEE航空和电子系统杂志,2021年。
摘要:结合域随机化和强化学习是一种广泛使用的方法,可以获得可以弥合模拟与现实之间差距的控制策略。但是,现有方法对域参数分布的形式进行了限制假设,该假设阻止了它们利用域随机化的全部功能。通常,选择每个参数的概率分布(例如,正常或统一)的受限制家庭。此外,基于深度学习的直接方法需要不同的模拟器,这些模拟器要么不可用,要么只能模拟有限的系统。这种僵化的假设降低了域在机器人技术中的适用性。基于最近提出的无神经可能性的内引入方法,我们引入了神经后域随机化(NPDR),这是一种算法,该算法在从随机模拟器中学习策略和在贝叶斯时尚中的模拟器参数上的策略之间交替。我们的方法仅需要一个参数化的模拟器,粗糙的先验范围,一个策略(可选的具有优化例程)和一小部分现实世界观察。最重要的是,域参数分布不限于特定族,可以将参数关联,并且模拟器不必可区分。我们表明,所提出的方法能够充分地在域参数上适应后部,以更紧密地匹配观察到的动力学。此外,我们证明了NPDR可以使用比可比算法更少的现实世界推出来学习可转移的策略。
由国家研究所出版社(National InstitutePress®9302Lee Highway)出版,套房750 Fairfax,Virginia 22031版权所有©2021由National InstitutePress®保留所有权利。本书的任何一部分都不得以任何形式重印或复制或使用,或者通过电子,机械或其他方式,现在已知或以后发明的,包括影印,记录,记录或在任何信息存储或检索系统中,未经出版商的书面许可。本书中表达的观点是作者独自一人,不代表他与他人或已隶属的任何机构。作者要特别感谢这本专着的高级审稿人,他们的投入,批评和评论极大地提高了其质量:凯瑟琳·贝利博士,彼得·L·海斯博士,彼得·H·海斯博士,罗伯特·约瑟夫大使和基思·佩恩博士。我还要感谢艾米·约瑟夫(Amy Joseph)在整个开发和生产过程中的宝贵支持。最后,作者想对史密斯·理查森基金会(Smith Richardson Foundation)和莎拉·斯卡夫(Sarah Scaife)基金会表示赞赏,以赢得这一专着的慷慨支持。
真核生物coi M 13 f_lco 1490 (M 13 f)ggtcaaatcatattgg 1 658 bp又は815bp m 13 r_hco 2198 m 13 r_hcoout 13 R(R)TAACTTCAGGGGTGTGTGICCAAAAAAAAAAATCA (M 13 R)GTAATATATSGRTGDGCTC 1 2