详细内容或原文请订阅后点击阅览
DeepMind寻求自我改善的乒乓球代理
几乎没有一天,没有令人印象深刻的新机器人平台从全球学术实验室和商业初创公司出现。尤其是人形机器人看起来越来越有能力帮助我们在工厂,最终在家庭和医院中。但是,要使这些机器真正有用,他们需要精致的“大脑”来控制其机器人身体。传统上,编程机器人涉及专家花费无数小时精心编写复杂行为,并详尽地调整参数,例如控制器的增益或运动规划权重,以实现所需的性能。尽管机器学习(ML)技术有希望,但需要学习新的复杂行为的机器人仍然需要大量的人类监督和重新设计。在Google DeepMind,我们问自己:我们如何使机器人能够更加整体,连续地学习和适应,从而减少了每项重大改进或新技能的专家干预瓶装的瓶颈?这个问题是我们机器人研究背后的驱动力。我们正在探索范式,其中两个机器人互相对抗可以实现更大程度的自主性自我完善,而超越了系统,这些系统仅通过固定或狭窄的适应性ML模型进行了预编程,这些模型可以向代理商介绍,这些模型可以在工作中学习广泛的技能。在我们以前在ML上使用Alphago和Alphafold等系统的工作的基础,我们将注意力转向了乒乓球的苛刻运动。
来源:IEEE Spectrum _机器人几乎没有一天,没有令人印象深刻的新机器人平台从全球学术实验室和商业初创公司出现。尤其是人形机器人看起来越来越有能力帮助我们在工厂,最终在家庭和医院中。但是,要使这些机器真正有用,他们需要精致的“大脑”来控制其机器人身体。传统上,编程机器人涉及专家花费无数小时精心编写复杂行为,并详尽地调整参数,例如控制器的增益或运动规划权重,以实现所需的性能。尽管机器学习(ML)技术有希望,但需要学习新的复杂行为的机器人仍然需要大量的人类监督和重新设计。在Google DeepMind,我们问自己:我们如何使机器人能够更加整体,连续地学习和适应,从而减少每种重大改进或新技能的专家干预瓶装?
启动 类人机器人 工厂 医院 编程 机器学习 Google DeepMind这个问题一直是我们机器人研究背后的推动力。我们正在探索范式,其中两个机器人互相对抗可以实现更大程度的自主性自我完善,而超越了系统,这些系统仅通过固定或狭窄的适应性ML模型进行了预编程,这些模型可以向代理商介绍,这些模型可以在工作中学习广泛的技能。在我们以前在ML上使用Alphago和Alphafold等系统的工作的基础,我们将注意力转向了乒乓球苛刻的运动型运动。
Robotics alphago alphafold teen网球作为测试床 网球 算法 -自我完善挑战
数据收集 增强学习通过竞争学习:机器人与机器人
我们探索的一种创新方法反映了用于alphago的策略:让代理商通过与自己竞争来学习。我们试验了两个机器人武器互相打乒乓球,一个 机器人武器deepmind
远程监视