详细内容或原文请订阅后点击阅览
构建更安全的对话代理
在我们的最新论文中,我们介绍了 Sparrow——一种非常有用的对话代理,可以降低不安全和不适当答案的风险。我们的代理旨在与用户交谈、回答问题,并在查找证据以指导其响应时使用 Google 搜索互联网。
来源:DeepMind - 新闻与博客研究
构建更安全的对话代理
- 已发布2022 年 9 月 22 日作者 Sparrow 团队
Sparrow 团队
训练 AI 以更有帮助、更正确和更无害的方式进行交流
近年来,大型语言模型 (LLM) 在一系列任务(例如问答、总结和对话)中取得了成功。对话是一项特别有趣的任务,因为它具有灵活和交互式的交流。然而,由 LLM 驱动的对话代理可能会表达不准确或虚构的信息、使用歧视性语言或鼓励不安全的行为。
为了创建更安全的对话代理,我们需要能够从人类反馈中学习。通过应用基于研究参与者输入的强化学习,我们探索了训练对话代理的新方法,这些方法有望实现更安全的系统。
在我们的最新论文中,我们介绍了 Sparrow - 一种有用的对话代理,可以降低不安全和不适当答案的风险。我们的代理旨在与用户交谈、回答问题,并在查找证据以指导其响应时使用 Google 搜索互联网。
最新论文 Sparrow我们的新对话式 AI 模型可以自行回复初始人类提示。
Sparrow 是一个研究模型和概念验证,旨在训练对话代理,使其更有帮助、更正确、更无害。通过在一般对话环境中学习这些品质,Sparrow 加深了我们对如何训练代理使其更安全、更有用的理解——最终帮助构建更安全、更有用的通用人工智能 (AGI)。