使用强化学习对复杂的交互式编码程序进行评分

[摘要] tl;dr:人们投入了大量精力来训练 AI 算法,使其能够玩一些计算机传统上难以玩的游戏,例如 Atari 发布的复古游戏、围棋、DotA 和星际争霸 II。在开发这些算法的过程中积累的实用机器学习知识为人们现在为许多游戏定期训练游戏 AI 代理铺平了道路。按照这条思路,我们专注于一类特定的游戏——学生作为编程作业的一部分开发的游戏。掌握 Atari 游戏的相同算法能帮助我们评分这些游戏作业吗?在我们最近的 NeurIPS 2021 论文中,我们说明了将交互式编码作业评分视为游戏的挑战,并介绍了“玩评分挑战”。简介大规模在线编码教育在过去十年中取得了显著的成功。快速的互联网速度、改进的 UI 设计、嵌入在浏览器窗口中的代码编辑器使 Code.org 等教育平台能够针对具有不同编码经验和兴趣水平的学生构建多样​​化的课程(例如,Code.org 提供“星球大战主题编码挑战”和“Elsa/Frozen 主题 for 循环编写”)。作为一个非营利组织,Code.org 声称已经覆盖了全球超过 6000 万学习者 1。此类组织通常提供各种精心构建的教学材料,例如视频和编程挑战

来源:斯坦福人工智能实验室博客