详细内容或原文请订阅后点击阅览
增强机器学习:在模仿和反复试验之间取得平衡
研究人员正在研究一种更有效的方法来训练机器应对不确定的现实情况。一种新的算法将决定“学生”机器何时应该跟随老师,何时应该自己学习。
来源:Qudata增强机器学习:在模仿和反复试验之间取得平衡
麻省理工学院和以色列理工学院的研究人员开发了一种创新算法,该算法可以彻底改变机器应对不确定的现实情况的训练方式。受人类学习过程的启发,该算法动态地确定机器何时应该模仿“老师”(称为模仿学习)以及何时应该通过反复试验进行探索和学习(称为强化学习)。
创新算法该算法背后的关键思想是在两种学习方法之间取得平衡。研究人员没有依赖蛮力反复试验或模仿和强化学习的固定组合,而是同时训练了两个学生机器。一个学生使用两种学习方法的加权组合,而另一个学生仅依赖强化学习。
该算法不断比较两个学生的表现。如果使用老师指导的学生取得了更好的成绩,算法就会增加模仿学习的训练权重。相反,如果依靠反复试验的学生取得了可喜的进步,算法就会更加注重强化学习。通过根据表现动态调整学习方法,该算法被证明具有适应性,并且在教授复杂任务方面更有效。
在模拟实验中,研究人员通过训练机器穿越迷宫和操纵物体来测试他们的方法。该算法展示了近乎完美的成功率,并且优于仅采用模仿或强化学习的方法。结果令人鼓舞,并展示了该算法在训练机器应对具有挑战性的现实场景(例如在陌生环境中的机器人导航)方面的潜力。
在论文中了解有关研究的更多信息。
论文