通才代理

受到大规模语言建模进展的启发,我们采用类似的方法来构建文本输出领域之外的单一通用代理。我们称之为 Gato 的代理是一种多模式、多任务、多体现的通用策略。具有相同权重的相同网络可以玩 Atari、为图片添加字幕、聊天、用真正的机械臂堆叠积木等等,并根据其上下文决定是否输出文本、关节扭矩、按钮按下或其他标记。

来源:DeepMind - 新闻与博客

研究

多面手代理

发布12 May 2022作者Scott Reed、Konrad Żołna、Emilio Parisotto、Sergio Gómez Colmenarejo、Alexander Novikov、Gabriel Barth-Maron、Mai Giménez、Yury Sulsky、Jackie Kay、Jost Tobias Springenberg、Tom Eccles、Racesh Ali、Aceley Edwards、Edwards , Nicolas Heess、Yutian Chen、Raia Hadsell、Oriol Vinyals、Mahyar Bordbar 和 Nando de Freitas
已发布
2022 年 5 月 12 日
作者
斯科特·里德、康拉德·佐乌纳、埃米利奥·帕里索托、塞尔吉奥·戈麦斯·科尔梅纳雷霍、亚历山大·诺维科夫、加布里埃尔·巴斯-马龙、麦·吉门尼斯、尤里·索尔斯基、杰基·凯、约斯特·托拜厄斯·斯普林伯格、汤姆·埃克尔斯、杰克·布鲁斯、阿里·拉扎维、阿什利·爱德华兹、尼古拉斯Heess、Yutian Chen、Raia Hadsell、Oriol Vinyals、Mahyar Bordbar 和 Nando de Freitas

斯科特·里德、康拉德·佐乌纳、埃米利奥·帕里索托、塞尔吉奥·戈麦斯·科尔梅纳雷霍、亚历山大·诺维科夫、加布里埃尔·巴斯-马龙、麦·吉门尼斯、尤里·索尔斯基、杰基·凯、约斯特·托拜厄斯·斯普林伯格、汤姆·埃克尔斯、杰克·布鲁斯、阿里·拉扎维、阿什利·爱德华兹、尼古拉斯Heess、Yutian Chen、Raia Hadsell、Oriol Vinyals、Mahyar Bordbar 和 Nando de Freitas

受到大规模语言建模进展的启发,我们应用类似的方法来构建超出文本输出领域的单一通用代理。该代理,我们称为 Gato,作为多模式、多任务、多实施例的通才策略。具有相同权重的同一网络可以玩 Atari、字幕图像、聊天、使用真实的机器人手臂堆叠块等等,并根据其上下文决定是否输出文本、关节扭矩、按钮按下或其他标记。

在 Gato 的训练阶段,来自不同任务和模式的数据被序列化为平坦的标记序列,并由类似于大型语言模型的变压器神经网络进行批处理和处理。损失被掩盖,以便 Gato 只预测动作和文本目标。