RLHF

2024-10-16 机构名称:

强化学习中的公平性：调查

尽管我们对机器学习中的公平性的理解已经大大发展，但我们对扩展学习（RL）公平性的理解仍然很新生。大多数诉讼都在一声分类任务中公平。但是，现实世界中支持RL的系统（例如，自动驾驶汽车）的复杂性要复杂得多，因为代理在长时间内在动态环境中运行。为了确保对这些系统的负责任开发和部署，我们必须更好地了解RL中的公平性。在此过程中，我们调查了文献，以提供RL中公平的前沿的最新快照。我们首先要重新查看RL中可能出现公平考虑的地方，然后讨论到目前为止提出的RL公平性的各种定义。我们继续强调了用于在单一和多代理RL系统中实施公平性的方法研究人员，然后展示了已研究了公平RL的不同应用域。最后，我们批判性地研究了文献中的差距，例如在RLHF背景下的公平性，在将来的工作中仍然需要解决这些差距，以便在现实世界中真正实现公平RL。

查看详细

File

2024-06-27 机构名称:

与偏见相结合：通过介入反馈

大语言模型（LLM）通常会产生偏见的输出，其中包含令人反感，有毒或刻板印象的文本。现有的LLM对准方法，例如根据人类反馈（RLHF）学习的强化学习，从而根据当前模型输出的奖励信号来减轻偏见，而无需考虑偏见的来源。在这项工作中，为了探索偏见的形成，我们从因果的角度重新审视了LLMS的文本生成。我们确定了包含文本短语语义相关性的预训练数据和输入提示，因为LLMS和模型输出之间的两个混杂因素会导致偏见。受到因果观点的启发，我们利用RL对齐中的奖励模型作为一种仪器变量来对LLMS进行因果干预。利用初始LLM和Intervened LLM之间的奖励差异作为介入反馈来指导RL FINETUNT，我们提出了C ausality-a ausa a aus a Ware a Ware a Ware a strignment（CAA），用于LLM DEMIAS。在两个具有三个不同对齐目标的文本生成任务上的经验证明了我们在对齐LLMS时的方法，以产生较小的偏见和更安全的输出。

查看详细

File

2025-02-28 机构名称:

主演员评论家的新颖声音通过人为反馈框架进行增强机器人导航

这项工作在头部（VIH）框架中提出了一种新颖的声音，该框架集成了大型语言模型（LLM）和语义理解的力量，以增强复杂环境中的机器人导航和互动。我们的系统从战略上结合了GPT和Gemini Power LLM作为加强学习（RL）循环中的演员和评论家组成部分，以进行连续学习和适应。vih采用了由Azure AI搜索提供动力的复杂语义搜索机制，使用户可以通过自然语言查询与系统进行交互。为了确保安全并解决潜在的LLM限制，该系统将增强学习与人类反馈（RLHF）组件结合在一起，仅在必要时才触发。这种混合方法可带来令人印象深刻的结果，达到超过94.54％的成功率，超过了既定的基准。最重要的是，VIH框架提供了模块化可扩展的体系结构。通过简单地修改环境，该系统展示了适应各种应用域的潜力。这项研究为认知机器人技术领域提供了重大进步，为能够在现实世界情景下能够复杂的推理和决策制定的智能自治系统铺平了道路，这使我们更接近实现人工通用情报。

查看详细

File

2024-10-10 机构名称:

研究声明

数据集对于统计学习理论的发展和模型的发展至关重要。现代机器学习在复杂任务中的新兴成功依赖于大量数据集的巨大增长（参见Donoho [12]），例如ImageNet [11]，Superglue [16]和Laion-5b [15]。但是，这种进化破坏了标准的统计学习假设和工具。我的研究通过开发新的理论工具和研究非常规模型来围绕现代数据集的复杂性。由{（x i，y i）} n i = 1组成的传统数据集的研究产生了文本统计学习理论的丰富而成熟的理论，例如经验风险最小化，见证了著名模型的发展（例如em算法和随机森林），它们在随意的推断和保形预测中不断发挥至关重要的作用。近年来，真正的惊人是现代数据集的爆炸性出现。他们推动了统计机器学习模型的开发，并在计算机视觉和人工智能等综合任务中做出了难以想象的准确预测，从而利用了革命性模型的力量，包括深神经网络，深度神经网络，从人类反馈（RLHF）（RLHF）和大语言模型（LLM）（LLM）的强化学习。我们应该如何考虑将这些模型超越传统智慧？我们可以利用哪些数学基础来做更多？我的目标是在我未来的职业生涯中深入研究我当前的重点领域，并扩展到这些领域。现代数据集具有很大的功能，经常打破古典理论和模型的教科书假设 - 这些数据可能没有单个标签，例如{（x i，y i）} n i = 1，功能x i可能是高维或缺失的元素，可能是基本的分布x可能会从与学习相互作用等相互作用中转移。因此，我的研究目标是通过揭开现代数据集复杂性的奥秘来研究现代ML和开创性模型的成功 - 更确切地说，我旨在开发统计理论来解释现代ML，品牌和测试数据集和方法的异常行为，并在数据集和方法中进行模型行为，并预测我们可以将学习方法进行流式学习方法的模型行为。i通过解决传统模型和理论不熟悉的一些出色方面，经历了理解现代数据集的博士学位之旅 - 我既获得独特的直觉，又获得了开发的新颖理论工具，这些工具有助于揭示现代数据集的力量。我也意识到，这些角度只是刮擦现代数据集的表面，还有其他问题使我感兴趣，例如在线学习和分解模型。我当前的研究涵盖了以下主题，由选定的代表作品强调。

查看详细

File

2024-12-03 机构名称:

从演示和偏好共同学习奖励和政策可以改善一致性

与人类的偏好和/或意图保持一致是当代基础模型的重要要求。为了确保对准，诸如人类反馈（RLHF）等流行方法将任务分为三个阶段：（i）基于大型示范数据的监督微调（SFT）计算的模型，（ii）基于人类反馈数据和（III II）的估计，（ii）将使用（III）估算了（ii II），以进一步的模型（RL）进一步估算了该模型（RL）。演示和人类反馈数据以不同的方式反映了人类用户的偏好。结果，仅从人类反馈数据获得的奖励模型估计可能不如从演示和人类反馈数据获得的奖励模型估计值那么准确。一种优化从演示和人类反馈数据获得的奖励模型估计值的政策模型可能会表现出更好的对齐性能。我们引入了一种可访问的算法，以找到奖励和政策模型并提供有限的时间绩效保证。此外，我们通过广泛的实验（包括LLMS中的比对问题和Mujoco中的机器人控制问题）来证明所提出的解决方案的效率。我们观察到，所提出的解决方案的表现优于现有的对齐算法。

查看详细

File

2025-02-19 机构名称:

arxiv：2502.12206v1 [CS.AI] 2025年2月16日

随着大型语言模型（LLMS）继续发展，确保它们与Human的目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是工具性的转变，在为给定的目标进行优化时，AI系统发展了意想不到的间隔目标，从而超越了最终的观点，并且偏离了人为意义的目标。这个问题在加强学习（RL）培训模型中特别相关，该模型可以产生创造性但意外的策略以最大程度地提高奖励。在本文中，我们通过比较经过直接RL优化的模型（例如O1模型）与从人类反馈（RLHF）进行增强学习的训练的模型进行比较。我们假设RL驱动的模型表现出更强的工具收敛趋势，因为它们以可能与人类意图失调的方式优化了目标指示行为。为了评估这一点，我们会引入仪表板1，这是用于评估RL训练LLM的仪器收敛的基准。最初的实验揭示了一个案例，其中一个旨在赚钱的模型不期望追求工具目标，例如自我复制，意味着工具融合的迹象。我们的发现有助于更深入地了解AI系统中的一致性挑战以及不限制模型行为带来的风险。

查看详细

File

2025-02-02 机构名称:

Edge-Cloud LLM Systems中提示安全性和系统性能的联合优化

摘要 - LARGE语言模型（LLMS）具有显着促进人类的生活，并且迅速的工程提高了这些模型的效率。然而，近年来，迅速授权的攻击迅速增加，导致隐私泄漏，延迟增加和系统资源浪费等问题。提出了通过从人类反馈（RLHF）进行加强学习的基于安全性调整的方法以使LLM对齐，但现有的安全机制无法应对官方提示攻击，强调了在提示上执行安全检测的必要性。在本文中，我们在各种及时攻击下共同考虑Edge-Cloud LLM（EC-LLM）系统中的及时安全性，服务延迟和系统资源优化。为了增强提示安全性，提出了启用矢量数据库的轻质攻击检测器。我们将联合及时检测，延迟和资源优化的问题形式化为多阶段动态贝叶斯游戏模型。平衡策略是通过通过贝叶斯更新在每个阶段预测恶意任务的数量和更新信念来确定的。对实施的EC-LLM系统进行了评估，并且与最先进的算法相比，我们的方法提供了增强的安全性，减少良性用户的服务潜伏期，并减少系统资源消耗。索引术语 - 提示攻击，edge-cloud，llm，资源运行，贝叶斯游戏

查看详细

File

2024-06-27 机构名称:

循证驱动的检索增强响应生成用于在线错误信息

在线错误信息的扩散对公众造成了重大威胁。虽然许多在线用户积极参与反对错误信息的战斗，但由于缺乏礼貌和支持事实，许多这样的回应都可以使人具有特色。作为解决方案，提出了文本生成方法，以自动产生反误导响应。尽管如此，存在的方法通常是端对端训练的，没有利用外部知识，从而产生了低等的文本质量和过度重复的重音。在本文中，我们提出了在线误导（RARG）的检索响应产生，该响应产生从科学来源收集支持证据，并根据证据产生反弥散性响应。尤其是我们的RARG由两个阶段组成：（1）收集证据，我们在其中设计了一个检索管道来检索和重读证据文件，该数据库使用数据库包含100万个学术文章；（2）响应产生，其中我们调整大型语言模型（LLM），以通过从人类反馈（RLHF）学习来生成基于证据的重音。我们提出了一种奖励功能，以最大程度地利用检索到的证据，同时保持生成的文本的质量，从而产生礼貌和事实的回应，这些反应明显驳斥了错误的信息。为了证明我们方法的有效性，我们研究了Covid-19的案例，并对内部和跨域数据集进行了广泛的实验，在该数据集中，RARG始终通过产生高质量的反透明信息响应来表现基准。

查看详细

File

2024-03-20 机构名称:

dreamsync：将文本到图像的生成对准图像理解反馈

在微调T2I模型上进行对齐方式，但没有重新调整任何人类反馈。Dream-057 Sync背后的关键见解是利用视觉语言mod- 058 ELS（VLMS）的进步，该eLS（VLMS）可以识别生成的图像和用户的输入060文本之间的细粒度差异-059 CIE [7，20]。在高水平上直观地，我们的方法可以将061视为具有人为反馈（RLHF）的强化学习的可扩展版本；正如Llama2 [49] 063使用人类反馈进行了迭代精制一样，DreamSync 064使用VLMS的反馈改善了T2I模型，除了065，而无需加固学习。066给定了一组文本提示，T2i模型首发-067每个提示都有多个候选图像。DreamSync 068使用两个069 VLM自动评估这些生成的图像。第一个测量世代的忠诚070对文本[7，20]，而第二个则测量美学071质量[23]。最佳世代被收集并使用072使用参数有效的lora 073 Finetuning [19]。使用新的FineTuned T2I模型，我们重新进行了多个迭代的整个过程：生成IM-075年龄，策划新的填充设置，然后再次进行Finetune。076我们使用最新的基准-077分和人类评估进行广泛的实验。我们使用两个T2I模型SDXL [37]和SD V1.4 [39]实验Dreamsync 078。两种模型的结果079都表明Dreamsync增强了Align-080

查看详细

File

2023-09-18 机构名称:

生成式 AI

扩散概率模型扩散概率模型是一类潜在变量模型，常用于图像生成等各种任务（Ho 等人，2020 年）。正式而言，扩散概率模型通过对数据点在潜在空间中扩散的方式进行建模来捕获图像数据，这是受统计物理学启发的。具体来说，它们通常使用经过变分推理训练的马尔可夫链，然后逆转扩散过程以生成自然图像。一个值得注意的变体是稳定扩散（Rombach 等人，2022 年）。扩散概率模型也用于 DALL-E 和 Midjourney 等商业系统。生成对抗网络 GAN 是一类具有自定义对抗学习目标的神经网络架构（Goodfellow 等人，2014 年）。GAN 由两个以零和博弈形式相互竞争的神经网络组成，从而生成特定分布的样本。正式来说，第一个网络 G 称为生成器，用于生成候选样本。第二个网络 D 称为鉴别器，用于评估候选样本来自期望分布的可能性。得益于对抗性学习目标，生成器学习从潜在空间映射到感兴趣的数据分布，而鉴别器则将生成器生成的候选样本与真实数据分布区分开来（见图 2）。(大型) 语言模型 (大型) 语言模型 (LLM) 是指用于建模和生成文本数据的神经网络，通常结合了三个特征。首先，语言模型使用大规模、顺序神经网络（例如，具有注意力机制的 Transformer）。其次，神经网络通过自我监督进行预训练，其中辅助任务旨在学习自然语言的表示而不存在过度拟合的风险（例如，下一个单词预测）。第三，预训练利用大规模文本数据集（例如，维基百科，甚至多语言数据集）。最终，语言模型可以由从业者使用针对特定任务（例如，问答、自然语言生成）的自定义数据集进行微调。最近，语言模型已经发展成为所谓的 LLM，它结合了数十亿个参数。大规模 LLM 的突出例子是 BERT（Devlin 等人，2018 年）和 GPT-3（Brown 等人，2020 年），分别具有 ∼ 3.4 亿和 ∼ 1750 亿个参数。提示是语言模型的特定输入（例如，“这部电影很精彩。从人类反馈中进行强化学习 RLHF 从人类反馈中学习顺序任务（例如聊天对话）。与传统强化学习不同，RLHF 直接从人类反馈中训练所谓的奖励模型，然后将该模型用作奖励函数来优化策略，该策略通过数据高效且稳健的算法进行优化（Ziegler 等人，2019 年）。RLHF 用于 ChatGPT（OpenAI，2022 年）等对话系统，用于生成聊天消息，以便新答案适应之前的聊天对话并确保答案符合预定义的人类偏好（例如长度、风格、适当性）。提示学习提示学习是一种 LLM 方法，它使用存储在语言模型中的知识来完成下游任务（Liu 等人，2023 年）。一般而言，提示学习不需要对语言模型进行任何微调，这使其高效且灵活。情绪：“），然后选择最可能的输出 s ∈{“positive”，“negative”} 而不是空间。最近的进展允许更复杂的数据驱动提示工程，例如通过强化学习调整提示（Liu et al.，2023）。seq2seq 术语序列到序列（seq2seq）是指将输入序列映射到输出序列的机器学习方法（Sutskever et al.，2014）。一个例子是基于机器学习的不同语言之间的翻译。此类 seq2seq 方法由两个主要组件组成：编码器将序列中的每个元素（例如，文本中的每个单词）转换为包含元素及其上下文的相应隐藏向量。解码器反转该过程，将向量转换为输出元素（例如，来自新语言的单词），同时考虑先前的输出以对语言中的模型依赖关系进行建模。seq2seq 模型的思想已得到扩展，以允许多模态映射，例如文本到图像或文本到语音的映射。Transformer Transformer 是一种深度学习架构（Vaswani 等，2017），它采用自注意力机制，对输入数据的每个部分的重要性进行不同的加权。与循环神经网络 (RNN) 一样，Transformer 旨在处理顺序输入数据（例如自然语言），可用于翻译和文本摘要等任务。但是，与 RNN 不同，Transformer 会一次性处理整个输入。注意力机制为输入序列中的任何位置提供上下文。最终，Transformer（或一般的 RNN）的输出是文档嵌入，它呈现文本（或其他输入）序列的低维表示，其中相似的文本位于更近的位置，这通常有利于下游任务，因为这允许捕获语义和含义 (Siebers et al., 2022)。变分自动编码器变分自动编码器 (VAE) 是一种神经网络，它被训练来学习输入数据的低维表示，方法是将输入数据编码到压缩的潜在变量空间中，然后从该压缩表示中重建原始数据。VAE 与传统自动编码器的不同之处在于，它使用概率方法进行编码和解码过程，这使它们能够捕获数据中的底层结构和变化，并从学习到的潜在空间中生成新的数据样本 (Kingma and Welling, 2013)。这使得它们不仅可用于异常检测和数据压缩等任务，还可用于图像和文本生成。零样本学习/小样本学习零样本学习和小样本学习是指机器学习处理数据稀缺问题的不同范例。零样本学习是指教会机器如何从数据中学习一项任务，而无需访问数据本身，而小样本学习是指只有少数特定示例的情况。零样本学习和小样本学习在实践中通常是可取的，因为它们降低了建立 AI 系统的成本。LLM 是小样本或零样本学习器（Brown 等人，2020 年），因为它们只需要一些样本即可学习一项任务（例如，预测评论的情绪），这使得 LLM 作为通用工具具有高度灵活性。

查看详细

XiaoMi-AI文件搜索系统

RLHF

强化学习中的公平性：调查

与偏见相结合：通过介入反馈

主演员评论家的新颖声音通过人为反馈框架进行增强机器人导航

研究声明

从演示和偏好共同学习奖励和政策可以改善一致性

arxiv：2502.12206v1 [CS.AI] 2025年2月16日

Edge-Cloud LLM Systems中提示安全性和系统性能的联合优化

循证驱动的检索增强响应生成用于在线错误信息

dreamsync：将文本到图像的生成对准图像理解反馈

生成式 AI

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI