受到大规模语言建模进展的启发,我们采用类似的方法来构建文本输出领域之外的单一通用代理。我们称之为 Gato 的代理是一种多模式、多任务、多体现的通用策略。具有相同权重的相同网络可以玩 Atari、为图片添加字幕、聊天、用真正的机械臂堆叠积木等等,并根据其上下文决定是否输出文本、关节扭矩、按钮按下或其他标记。
Grading Complex Interactive Coding Programs with Reinforcement Learning
[摘要] tl;dr:人们投入了大量精力来训练 AI 算法,使其能够玩一些计算机传统上难以玩的游戏,例如 Atari 发布的复古游戏、围棋、DotA 和星际争霸 II。在开发这些算法的过程中积累的实用机器学习知识为人们现在为许多游戏定期训练游戏 AI 代理铺平了道路。按照这条思路,我们专注于一类特定的游戏——学生作为编程作业的一部分开发的游戏。掌握 Atari 游戏的相同算法能帮助我们评分这些游戏作业吗?在我们最近的 NeurIPS 2021 论文中,我们说明了将交互式编码作业评分视为游戏的挑战,并介绍了“玩评分挑战”。简介大规模在线编码教育在过去十年中取得了显著的成功。快速的互联网速度、改进
Grading Complex Interactive Coding Programs with Reinforcement Learning
[摘要] tl;dr:人们投入了大量精力来训练 AI 算法,使其能够玩一些计算机传统上难以玩的游戏,例如 Atari 发布的复古游戏、围棋、DotA 和星际争霸 II。在开发这些算法的过程中积累的实用机器学习知识为人们现在为许多游戏定期训练游戏 AI 代理铺平了道路。按照这条思路,我们专注于一类特定的游戏——学生作为编程作业的一部分开发的游戏。掌握 Atari 游戏的相同算法能帮助我们评分这些游戏作业吗?在我们最近的 NeurIPS 2021 论文中,我们说明了将交互式编码作业评分视为游戏的挑战,并介绍了“玩评分挑战”。简介大规模在线编码教育在过去十年中取得了显著的成功。快速的互联网速度、改进
博客、观点和学术论文以过去的疫情为指导,新冠肺炎将加剧不平等——Furceri、Loungani、Ostry 和 Pizzuto (VoxEU)疫情衰退开始时的美国劳动力市场——Cajner 等人欧元区的新冠肺炎危机:衰退还是“双峰”扩张? - CEPR-EABCN 欧元区商业周期测定委员会本周数据:为非洲应对新冠肺炎疫情提供资金的成本 - Chris Heitzig (布鲁金斯学会)悬崖前两个月 - Catarina Midoes (布鲁盖尔学会)马尔可夫转换模型中可能出现的复苏形态 - Bouabdallah 和 Ferrara新冠肺炎疫情期间为低收入工人提供的收入援助 - Levine
Компьютерные игры помогут в обучении ИИ
人工智能通过电脑游戏学习,教授解决问题和决策等一般技能。德国亚琛工业大学和微软研究院的研究人员为 Atari 2600 最受欢迎的游戏提供了最大的演练数据库。