新的训练方法可以帮助 AI 代理在不确定的条件下表现更好

有时,在与部署环境不同的环境中训练机器人可能会更好。

来源:MIT新闻 - 人工智能

在工厂中接受过执行家务训练的家用机器人在部署到用户的厨房时可能无法有效地擦洗水槽或倒垃圾,因为这个新环境与其训练空间不同。

为了避免这种情况,工程师们经常尝试将模拟训练环境与代理将部署的现实世界尽可能地匹配。

然而,麻省理工学院和其他地方的研究人员现在发现,尽管存在这种传统观点,但有时在完全不同的环境中进行训练会产生性能更好的人工智能代理。

他们的结果表明,在某些情况下,在较少不确定性或“噪音”的世界中训练模拟 AI 代理,使其表现优于在他们用来测试两个代理的相同嘈杂世界中训练的竞争 AI 代理。

研究人员将这种意外现象称为室内训练效应。

“如果我们在没有噪音的室内环境中学习打网球,我们可能能够更轻松地掌握不同的击球。然后,如果我们转移到一个更嘈杂的环境,比如有风的网球场,我们打好网球的概率就会比在有风的环境中开始学习时更高,”麻省理工学院媒体实验室的研究助理、室内训练效果论文的主要作者 Serena Bono 解释道。

室内训练效果:过渡函数分布变化带来的意外收益视频:麻省理工学院大脑、思维和机器中心

研究人员通过训练 AI 代理玩 Atari 游戏来研究这种现象,他们通过增加一些不可预测性来修改游戏。他们惊讶地发现,室内训练效果在 Atari 游戏和游戏变体中始终存在。

他们希望这些结果能够推动进一步的研究,以开发更好的 AI 代理训练方法。

训练问题

训练问题

探索解释

探索解释