在轻量级 LLM 中应用 RLAIF 进行代码生成并使用 API
这篇论文被 ACL 2024 的自然语言推理和结构化解释研讨会接受。人工智能反馈强化学习 (RLAIF) 已在各个领域展现出巨大潜力,包括减轻 LLM 输出的危害、增强文本摘要和数学推理。本文介绍了一个 RLAIF 框架,用于提高轻量级(<1B 个参数)LLM 的代码生成能力。我们特别关注需要编写适当 API 调用的代码生成任务,这很有挑战性,因为众所周知的问题......
来源:Apple机器学习研究这篇论文被 ACL 2024 的自然语言推理和结构化解释研讨会接受。
从人工智能反馈中进行强化学习 (RLAIF) 已在各个领域展现出巨大潜力,包括减轻 LLM 输出中的危害、增强文本摘要和数学推理。本文介绍了一种 RLAIF 框架,用于提高轻量级(<1B 个参数)LLM 的代码生成能力。我们特别关注需要编写适当 API 调用的代码生成任务,这很有挑战性,因为 LLM 中存在众所周知的幻觉问题。我们的框架通过专门的提示策略从较大的 LLM(例如 GPT-3.5)中提取人工智能反馈,并使用这些数据训练奖励模型,以实现与较小 LLM 的更好对齐。我们在 Gorilla 数据集上运行实验,并根据各种指标(包括 AST、ROUGE 和 Code-BLEU)仔细评估模型生成的代码的质量,并开发一个管道来准确计算其可执行率。我们的方法显著提高了微调后的 LLM 基线的性能,可执行率提高了 4.5%。值得注意的是,使用 RLAIF 训练的较小 LLM 模型(780M 个参数)超过了具有 7B 个参数的较大微调基线,代码可执行率提高了 1.0%。