在视频游戏世界中构建互动代理

大多数人工智能(AI)研究人员现在认为,编写可以捕获位置互动细微差别的计算机代码是不可能的。另外,现代机器学习(ML)研究人员专注于从数据中学习这些类型的相互作用。为了探索这些基于学习的方法,并迅速建立可以理解人类指导并在开放式条件下执行动作的代理商,我们在视频游戏环境中创建了一个研究框架。托迪,我们正在发布一篇论文[插入链接]并收集视频,显示了我们在建立视频游戏的早期步骤,可以理解模糊的人类概念 - 因此,可以开始与他们自身互动的人互动。

来源:DeepMind - 新闻与博客

注释

[1] Abramson,J.,Ahuja,A.,Barr,I.,Brussee,A.,Carnevale,F.,Cassin,M.,Chhaparia,R.,Clark,S. ARXIV预印型ARXIV:2012.05672。

ARXIV预印arxiv:2012.05672

[2] Abramson,J.,Ahuja,A.,Brussee,A.,Carnevale,F.,Cassin,M。,Fischer,F.,Georgiev,P.,Goldin,A.,Harley,T。和Hill,T。and Hill,F.,2021年。创建具有模仿和自我自我培训的多型互动的人。 ARXIV预印型ARXIV:2112.03763。

arxiv预印arxiv:2112.03763

[3] Abramson,J.,Ahuja,A.,Carnevale,F.,Georgiev,P.,Goldin,A.,Hung,A.,Landon,J.,Lillicrap,T.,Muldal,A. ARXIV预印型ARXIV:2205.13274。

arxiv预印arxiv:2205.13274

[4] Bai,Y.,Jones,A.,Ndousse,K.,Askell,A.,Chen,A. ARXIV预印型ARXIV:2204.05862。

arxiv预印arxiv:2204.05862

[5] Christiano,P.F.,Leike,J.,Brown,T.,Martic,M.,Legg,S。和Amodei,D.,2017年。从人类的偏好中进行深入的强化学习。神经信息处理系统的进步,30。

神经信息处理系统的进步 30