详细内容或原文请订阅后点击阅览
在视频游戏世界中构建交互式代理
大多数人工智能 (AI) 研究人员现在认为,编写能够捕捉情境交互细微差别的计算机代码是不可能的。或者,现代机器学习 (ML) 研究人员专注于从数据中学习这些类型的交互。为了探索这些基于学习的方法并快速构建能够理解人类指令并在开放式条件下安全执行操作的代理,我们在视频游戏环境中创建了一个研究框架。今天,我们发表了一篇论文 [插入链接] 和一系列视频,展示了我们在构建能够理解模糊人类概念的视频游戏 AI 方面的早期步骤——因此,可以开始按照自己的方式与人们互动。
来源:DeepMind - 新闻与博客注释
[1] Abramson, J., Ahuja, A., Barr, I., Brussee, A., Carnevale, F., Cassin, M., Chhaparia, R., Clark, S., Damoc, B., Dudzik, A. 和 Georgiev, P., 2020. 模仿交互式智能。arXiv 预印本 arXiv:2012.05672。
arXiv 预印本 arXiv:2012.05672[2] Abramson, J., Ahuja, A., Brussee, A., Carnevale, F., Cassin, M., Fischer, F., Georgiev, P., Goldin, A., Harley, T. 和 Hill, F., 2021. 通过模仿和自我监督学习创建多模式交互式代理。arXiv 预印本 arXiv:2112.03763。
arXiv 预印本 arXiv:2112.03763[3] Abramson, J., Ahuja, A., Carnevale, F., Georgiev, P., Goldin, A., Hung, A., Landon, J., Lillicrap, T., Muldal, A., Richards, B. 和 Santoro, A., 2022. 评估多模式交互代理。arXiv 预印本 arXiv:2205.13274。
arXiv preprint arXiv:2205.13274[4] Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D., Henighan, T. 和 Joseph, N., 2022. 通过从人类反馈中进行强化学习来训练一个有用且无害的助手。arXiv preprint arXiv:2204.05862。
arXiv 预印本 arXiv:2204.05862[5] Christiano, P.F., Leike, J., Brown, T., Martic, M., Legg, S. 和 Amodei, D., 2017. 从人类偏好中进行深度强化学习。神经信息处理系统的进展,30。
神经信息处理系统的进展 30