基于视觉的机器人布的展开最近取得了巨大进步。但是,先前的工作主要依靠价值学习,并且没有完全探索基于政策的技术。最近,在大型语言模型上进行增强学习的成功表明,该政策级别算法可以通过庞大的空间来增强政策。在本文中,我们介绍了Bloth-PPO,该框架采用了基于演员批判性建筑的策略级别算法,以增强具有巨大的10 6个附加空间的预训练模型,该模型与观察到的任务相符。为此,我们将布置问题重新定义为部分观察到的马尔可夫决策过程。使用监督的培训阶段来培训我们政策的基准模型。在第二阶段,近端政策优化(PPO)用于指导观测一致的附属空间内的套头文模型。通过优化和更新策略,我们提出的方法增加了服装的表面积,以在软体操纵任务下展开的布料。实验结果表明,我们提出的框架可以进一步改善其他最先进方法的展开性能。我们的项目可从https:// vpx- ecnu.github.io/clothppo-website/获得。
1希腊大学生物学系,赫拉克里安大学70013,希腊2分子科学系,瑞典农业科学大学和林尼大学植物生物学中心Uppsala Biocenter,Uppsala 75007,UPPSALA 75007,瑞典3号,瑞典3号研究所,研究3. 00 00 00 00 00 00 000年3月3日。瑞典农业科学大学森林遗传学和植物生理学系的Greeace 4Umeå植物科学中心(UPSC) De Sevilla和Consejo Superior de RevistionesCientíficaces(CSIC),塞维利亚,西班牙7 Biosciences,埃克塞特大学,埃克塞特大学,英国埃克塞特大学8 Ludwig Maximilians University Munich,Großhadernersstr植物生物化学,植物生物化学。2-4,Planggg-Martinsried 82152,德国9计算机科学研究所,研究与技术基金会,希腊赫拉克里昂,希腊10 DepartmentodebioquímicadeBioquímica植物生物学分子,de sevilla de sevilla,Spain sevilla,Spain evilla
在许多科学的学科和应用中(例如人工智能和运营研究)中,对硬优化问题进行采样一组高质量的解决方案具有很大的实践相关性。主要的开放问题之一是基于蒙特卡洛技术的典型随机求解器缺乏恐怖性或模式崩溃,导致概括或缺乏对不确定性的鲁棒性。当前,尚无通用度量标准来量化各种求解器的性能缺陷。在这里,我们引入了一种新的多样性度量,用于量化NP-HARD优化问题的独立近似解决方案的数量。除其他外,它允许通过所需的多样性(TTD)进行基准测试求解器的性能,这是经常使用的时间到达(TTS)的概括。我们通过比较各种量子退火策略的采样能力来说明该指标。特别是,我们表明,不均匀的量子退火时间表可以通过控制时空分离的临界界面来重新分配和抑制拓扑缺陷的出现,从而使相对于TTS和TTD都具有优势,从而使得与标准量子退火计划相比,与TTD相对于TTD,以寻找稀有解决方案。使用路径综合蒙特卡洛模拟可用于多达1600吨,我们证明,在有效的近似张量张量网络收缩的指导下,量子波动的量子驱动驱动可以显着减少与本地场随机挫败的2D旋转镜的硬性局部性的比例。具体来说,我们观察到,通过创建一类算法量子相变,可以通过减少25%以上的难度样本实例的比例来增强溶液的多样性。