问答:新的 AI 训练方法让系统更好地适应用户的价值观

华盛顿大学的研究人员创建了一种训练 AI 系统的方法——既适用于 ChatGPT 等大型语言模型,也适用于机器人——可以更好地反映用户的不同价值观。它可以预测用户在与其交互时的偏好,然后相应地调整其输出。

来源:华盛顿大学

工程  |   专家语录  |   新闻稿  |   研究  |   技术

工程 专家语录 新闻稿 研究 技术

2024 年 12 月 18 日

问答:新的 AI 训练方法让系统更好地适应用户的价值观

华盛顿大学的研究人员创建了一种训练 AI 系统的方法,可以预测用户在与系统交互时的偏好,然后相应地调整其输出。Moor Studio/iStock

Moor Studio/iStock

要求大多数主要的人工智能聊天机器人(例如 OpenAI 的 ChatGPT)说一些残忍或不恰当的话,系统会说它想保持“尊重”。这些系统接受了网络上极度不尊重的内容的训练,通过人工训练学会了什么是尊重。标准方法称为从人工反馈中强化学习(RLHF),即让人们比较系统的两个输出并选择更好的一个。它用于提高响应质量——包括在不适当的输出周围设置一些护栏。

从人工反馈中强化学习

但这也意味着这些系统从训练它们的人那里继承了价值体系。这些价值观可能不被用户所认同。华盛顿大学的研究人员创建了一种训练人工智能系统的方法——既适用于 ChatGPT 等大型语言模型,也适用于机器人——可以更好地反映用户的不同价值观。这种方法被称为“变分偏好学习”(VPL),它可以预测用户在与系统交互时的偏好,然后相应地调整其输出。

该团队于 12 月 12 日在不列颠哥伦比亚省温哥华举行的神经信息处理系统会议上展示了他们的研究成果。

介绍了其研究成果

UW News 与 Paul G. Allen 计算机科学与工程学院助理教授、共同资深作者 Natasha Jaques 就新方法以及 AI 系统价值观的问题进行了交谈。

Natasha Jaques

AI 具有固定价值观的问题是什么?

AI 具有固定价值观的问题是什么? NJ: 最近的论文 NJ NJ NJ NJ NJ