摘要8动物运动和神经力学控制的研究为9种神经科学,生物力学和机器人技术的研究提供了宝贵的见解。我们已经开发了农场10(动物和机器人建模和模拟框架),一个开源的,跨学科的11框架,旨在促进访问用于建模的神经力学模拟,12个模拟,对动物势力和生物启发的机器人系统的分析。通过提供13个可访问且用户友好的平台,农场旨在降低研究人员的障碍,以探索神经系统,肌肉骨骼结构和15个环境之间的复杂相互作用。农场以模块化的方式整合了Mujoco物理引擎,使16种现实的模拟并促进了神经科学家,生物学家和机器人主义者之间的协作。17个农场已经被广泛用于研究动物的运动,例如小鼠,18个果蝇,鱼,sal和cent,是研究19个中央模式发生器和感觉反馈的作用的平台。本文概述了Farms 20框架,讨论了其跨学科方法,通过特定的21个案例研究展示了其多功能性,并强调了其在促进我们对运动的理解方面的有效性。特别是在22中,我们展示了如何使用农场来研究两次运动,通过在形态和环境中介绍基于神经24个控制器的23个实验演示,并具有中央模式发生器和感觉反馈电路模型。28总的来说,农场的25个目标是有助于更深入地了解动物运动,创新生物启发的机器人系统的26发展,并促进神经力学27研究中的可及性。
扩散模型在增强学习(RL)方面具有广泛的关注(RL),以表现出强大的表现力和多模式。已经证实,利用扩散策略可以通过克服非峰政策(例如高斯政策)的局限性来显着改善RL算法在连续控制任务中的性能。此外,扩散策略的多模式性还表明了为代理提供增强的勘探能力的潜力。但是,现有的作品主要集中于在离线RL中应用扩散政策,而将其纳入在线RL中的研究较少。由于“良好”样本(动作)不可用,因此无法直接应用于在线RL中的扩散模型的训练目标,称为变异下限。为了将扩散模型与在线RL协调,我们提出了一种基于无模型扩散的新型在线RL算法,称为Q-PRIATION策略优化(QVPO)。具体来说,我们在实践中介绍了Q加权变分损失及其近似实施。值得注意的是,这种损失被证明是政策目标的紧密下限。为了进一步增强扩散策略的勘探能力,我们设计了一个特殊的熵正规化项。与高斯政策不同,扩散政策中的对数可能是无法访问的。因此,此熵项是不平凡的。此外,为了减少扩散政策的巨大差异,我们还通过行动选择制定了有效的行为政策。这可以进一步提高在线交互期间的样本效率。因此,QVPO算法利用了扩散策略的探索能力和多模式,从而阻止了RL代理融合到亚最佳策略。为了验证QVPO的有效性,我们对Mujoco连续控制基准进行了综合实验。最终结果表明,QVPO在累积奖励和样本效率方面都可以达到最先进的表现。我们的官方实施在https://github.com/wadx2019/qvpo/中发布。
可负担性引导的加固学习通过视觉提示2023年5月至2024年6月,斯坦福人工智能实验室(IRIS LAB)。由Annie Xie,Kuan Fang,Karl Pertsch,Chelsea Finn网站,纸张•实施方法利用视觉语言模型(VLMS)为在线增强学习定义密集的奖励。•开发了用于从VLM中提取负担能力表示的管道,以在图像空间中生成密集的路线轨迹。•在桥接数据上进行了预定的策略,对寡妇机器人的实施数量适中的示范进行了审核。通过耳朵播放它:通过视听模仿学习在2021年3月 - 2022年6月的斯坦福人人工智能实验室(IRIS实验室)中学习技巧。由苏拉吉·奈尔(Suraj Nair),切尔西·芬恩(Chelsea Finn)网站,纸张•实施的多模式模仿学习对视觉,音频和记忆的学习,以促进部分观察到的任务。•与Mujoco,Robosuite和Pytorch开发了行为克隆算法,用于在Franka-Emika Panda机器人上实施。•建立的管道以通过专家示范和在线征服人类干预措施来离线训练政策。COURSEWORK Graduate Computer Science : CS 168 Modern Algorithms, CS 205L Mathematical Machine Learning Methods, CS 224N Natural Language Processing, CS 229 Machine Learning, CS 231N Computer Vision, CS 326 Advanced Robotic Manipulation, CS 330 Deep Multi- task & Meta-Learning, CS 422 Interactive & Embodied Learning, OSPOXFRD 196Q Graph Representation Learning (Oxford Study Abroad)本科计算机科学:CS 103离散数学,CS 107计算机组织与系统,CS 109概率,CS 110计算机系统原理,CS 157计算逻辑,CS 161算法分析,CS 221人工智能数学原理:人工智能数学:51 MATHICE CALLIAD CALLIVER CALCAL CALCAL CALCAL CALLUS CALCAL CLATIVER CALLUL 52 CALLUL 52 CALLUL 52基理论,数学101数学发现实验室:概率理论和马尔可夫过程,数学151概率理论(自学),Phil 150数学逻辑,Phil 151 Metalogic,Phil 152可计算理论理论哲学:Phil 20N AI哲学:Phil 186 Mind哲学,Symsys Mindys 202 Invisorys of Invisorness of Semsys of Semsys of Seysy of Seensy of 205 Iccophens of 207 Cepply of Secipy of Seciphens of 207 Compection,207 OSPOXFRD 199A心理哲学(牛津学习国外)心理学与语言学:心理140心理语言学,心理240A好奇心人工智能中的好奇心,语言学家130A语义与务实语言学,语言学家150社会语言学,CS 384在伦理和语言处理中的cs 384 eminar和社会问题