标题:数据集重置在人类反馈中的在线增强学习中的作用:从人类反馈(RLHF)学习的在线增强学习是用于微调生成模型(例如大语言模型(LLMS))的范式,例如迄今为止最强大的LLMS,例如ChatGpts和GPT4。在这项工作中,利用文本生成的关键属性 - - 在任何地方重置的能力,我们提出了一种新的专业RL算法,在RLHF Pipeline中使用时,可以超越标准RL算法(例如近端策略优化(PPO))。我们的新算法数据集重置策略梯度(DR-PG),通过数据集重置在线策略培训期间的现有离线优先数据集:它将策略梯度优化器重置给离线数据集中的州,而不是总是从初始状态分布开始。离线偏好数据集提供了更有信息的状态(即与我们要优化的基本偏好更相关),我们可以从中重置RL优化器并执行策略优化。从理论上讲,我们表明,在RLHF管道中使用DR-PG时,DR-PG学会了至少与离线数据集涵盖的任何策略一样出色。在实验中,我们证明在标准的RLHF基准中,DR-PG的一代明显好于GPT4 Win-Rate的指标下的PPO一代。Bio:Wen Sun是康奈尔计算机科学系的助理教授。在此之前,他是纽约市Microsoft Research的博士后研究员,并于2019年从卡内基·梅隆大学(Carnegie Mellon University)的机器人学院完成了博士学位。他通常对机器学习感兴趣,尤其是强化学习。他目前的许多研究都是关于设计算法,以进行有效的顺序决策,理解探索和剥削以及如何利用离线数据来克服勘探。
• Transformer 架构 • 预训练(数据收集和学习目标) • 微调技术和数据(对齐、RLHF、PETM) • 评估(人工和自动) • 情境学习 • 可解释性 • 应用(搜索、对话代理)
奖励功能给定代理人观察到的行为,即使没有明确的奖励信号,RL代理也可以模仿这些行为。IRL在心理模型计算理论中的相关性是推断人类意图和心理状态。RLHF将人类的反馈直接纳入学习过程,而不是纯粹是从环境奖励中学习的。rlHF是社会认知机器人技术的关键,因为代理人通过人类的偏好或矫正获得了指导,从而确保了学识渊博的政策与人类价值观和期望更加紧密地保持一致。在一起,这些方法具有潜在的桥梁,即人类直觉和机器学习之间的差距,从而导致更健壮和人类的AI系统。14。机器人技术的表示:计算机视觉对机器人技术重要吗?
此图显示了根据众包工作者的模型比较计算出的无害性与有用性 Elo 分数(分数越高越好)。它显示了帕累托改进(即双赢局面),其中宪法 RL 比标准 RLHF 更有帮助,也更无害。
• 由文本驱动 • 在公共互联网上进行预训练(2022 年 1 月*) • 非监督和超可扩展 • 学习底层结构和模式 • 更多训练数据,更好的输出 • Transformers 权衡单词序列的重要性并预测下一个单词 • 使用来自人类反馈的强化学习 (RLHF) 进行微调 • 流行与准确
最近的研究表明,从人类反馈(RLHF)中学习的教学调整(IT)和加强学习会显着提高大语言模型(LMS)的能力。尽管这些调整方法可以帮助将模范与人类目标保持一致并产生高质量的文本,但对它们的潜在不利影响知之甚少。在这项工作中,我们对IT和RLHF的影响进行了对LMS的做法和推理的影响,重点是三种认知偏见(诱饵效应,确定性效应和信仰偏见),这些偏见都众所周知,这些偏见都会影响人类的决策 - 做出和推理。我们的发现突出了这些偏见在GPT-3,Mistral和T5家族中的各种偏见中的存在。值得注意的是,我们发现在经过指导调节的模型中,Bi-ASE的存在更强,例如Flan-T5,Mistral-Instruct,GPT3.5和GPT4。我们的工作构成了理解教学调整LMS认知偏见的一步,这对于开发更可靠和不可用的语言模型至关重要。1
从人类反馈中学习(RLHF)已成为使大语言模型(LLM)与人类偏好保持一致的标准方法,从而使LLM可以在各种任务中表现出显着的能力。现有方法通过在单个决策(转弯)级别上模拟偏好,限制其在需要计划或多转交互以实现长期目标的设置中的功能。在本文中,我们通过开发新的增强学习方法(RL)来解决这个问题,从两次完整的多转交谈之间的偏好反馈中。在表格设置中,我们为一般多转变的基于多转变的RL问题提供了一种新型的基于镜下降的策略优化算法,并证明了其与NASH平衡的收敛。为了评估绩效,我们创建了一个新的环境,教育对话,教师代理人指导学生学习一个随机主题,并证明我们算法的深度RL变体优于RLHF Baselines。最后,我们表明,在具有明确奖励的环境中,我们的算法恢复了与基于奖励的RL基线相同的性能,尽管仅依靠较弱的偏好信号。
在巨大的文本语料库中鉴定的大型语言模型(LLM)表现出了各种自然语言处理任务的非凡能力[Brown,2020]。但是,这些模型通常显示出偏见或有毒行为,以及如何使它们与人类价值观保持一致仍然是一个开放的问题。最近,通过将其作为加强学习(RL)问题来解决这个问题,目的是最大化人类偏好。这种方法,也称为人类反馈(RLHF)[Christiano等人,2017年,Stiennon等,2020],已成为使LLMS对齐的主要方式。将偏好学习作为RL问题,一个重要的问题是如何定义奖励功能。以前,这通常是使用成对比较模型(例如Bradley-Terry模型[Bradley and Terry,1952])建模的。但是,正如Munos等人指出的那样,这可能是有问题的。[2023],而解决此问题的一种更自然的方法是将其作为游戏进行。在目前的工作中,我们遵循这种方法,并将其与可以看待优势函数的想法结合使用以编码动作的因果效应[Pan等,2022],并证明这使我们能够量化代币在RLHF环境中的因果效应。
大型语言模型(LLMS)通常包含误导性内容,强调需要使它们与人类价值观保持一致以确保安全的AI系统。从人类反馈(RLHF)中学习的强化已被用来实现这一路线。然而,它包括两个主要的抽签:(1)RLHF表现出与SFT相反的对超参数的复杂性,不稳定和对超参数的现象。(2)尽管进行了大规模的反复试验,但多次抽样却降低为配对的对比度,因此缺乏宏观角度的对比度。在本文中,我们提出优先排名优化(PRO)作为有效的SFT算法,以直接对人类对齐进行微调。pro扩展了逐对的骗局,以适应任何长度的偏好排名。通过迭代对比候选人,Pro指示LLM优先考虑最佳响应,同时逐步对其余响应进行排名。以这种方式,Pro有效地将Human对齐方式转换为LLM产生的N重点的概率排名与Humans对这些响应的偏好排名。实验表明,Pro的表现优于基线算法,通过基于自动的,基于奖励的GPT-4和人类评估,与CHATGPT和人类反应取得了可比的结果。