RLAIF关键词检索结果

在轻量级 LLM 中应用 RLAIF 进行代码生成并使用 API

Applying RLAIF for Code Generation with API-usage in Lightweight LLMs

这篇论文被 ACL 2024 的自然语言推理和结构化解释研讨会接受。人工智能反馈强化学习 (RLAIF) 已在各个领域展现出巨大潜力,包括减轻 LLM 输出的危害、增强文本摘要和数学推理。本文介绍了一个 RLAIF 框架,用于提高轻量级(<1B 个参数)LLM 的代码生成能力。我们特别关注需要编写适当 API 调用的代码生成任务,这很有挑战性,因为众所周知的问题......

通过加强人工或AI反馈学习的微调模型

Fine-tune large language models with reinforcement learning from human or AI feedback

在这篇文章中,我们引入了一种最先进的方法来通过增强学习来微调LLM,审查了RLHF与RLAIF与DPO的利弊,并看到了如何与RLAIF进行LLM微调工作。我们还看到了如何使用拥抱面式变压器和TRL库对萨吉式制造商实施端到端的RLAIF管道,以及使用现成的毒性奖励模型在PPO期间与对齐响应,或直接提示LLM在PPO期间产生定量奖励反馈。

llm连续自我建筑微型调整框架由Amazon Sagemaker上的复合AI系统供电

LLM continuous self-instruct fine-tuning framework powered by a compound AI system on Amazon SageMaker

在这篇文章中,我们将连续的自我实施微型调整框架作为DSPY框架实现的复合AI系统。该框架首先从域知识库中生成一个综合数据集,并为自我建筑生成文档,然后通过SFT驱动模型进行微调,并介绍了人类的工作流程,以将人类和AI的反馈收集到模型响应中,它用于通过增强学习(RLHF/RLAIF)来对齐人类偏好来进一步提高模型性能。