详细内容或原文请订阅后点击阅览

构建更安全的对话代理

2022年9月22日 00:00 33 Comments

在我们的最新论文中，我们介绍了 Sparrow——一种非常有用的对话代理，可以降低不安全和不适当答案的风险。我们的代理旨在与用户交谈、回答问题，并在查找证据以指导其响应时使用 Google 搜索互联网。

来源:DeepMind - 新闻与博客

研究

已发布2022 年 9 月 22 日作者 Sparrow 团队

已发布

2022 年 9 月 22 日

作者

Sparrow 团队

训练 AI 以更有帮助、更正确和更无害的方式进行交流

近年来，大型语言模型 (LLM) 在一系列任务（例如问答、总结和对话）中取得了成功。对话是一项特别有趣的任务，因为它具有灵活和交互式的交流。然而，由 LLM 驱动的对话代理可能会表达不准确或虚构的信息、使用歧视性语言或鼓励不安全的行为。

为了创建更安全的对话代理，我们需要能够从人类反馈中学习。通过应用基于研究参与者输入的强化学习，我们探索了训练对话代理的新方法，这些方法有望实现更安全的系统。

在我们的最新论文中，我们介绍了 Sparrow - 一种有用的对话代理，可以降低不安全和不适当答案的风险。我们的代理旨在与用户交谈、回答问题，并在查找证据以指导其响应时使用 Google 搜索互联网。

最新论文 Sparrow

我们的新对话式 AI 模型可以自行回复初始人类提示。

Sparrow 是一个研究模型和概念验证，旨在训练对话代理，使其更有帮助、更正确、更无害。通过在一般对话环境中学习这些品质，Sparrow 加深了我们对如何训练代理使其更安全、更有用的理解——最终帮助构建更安全、更有用的通用人工智能 (AGI)。

Sparrow 拒绝回答一个可能有害的问题。

Sparrow 的工作原理

人类回复训练人工智能代理安全的使用学习 2022 22 对话 Sparrow 可能语言 AI 模型问题有用的