在轻量级 LLM 中应用 RLAIF 进行代码生成并使用 API XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在轻量级 LLM 中应用 RLAIF 进行代码生成并使用 API

2024年7月1日 00:00 33 Comments

这篇论文被 ACL 2024 的自然语言推理和结构化解释研讨会接受。人工智能反馈强化学习 (RLAIF) 已在各个领域展现出巨大潜力，包括减轻 LLM 输出的危害、增强文本摘要和数学推理。本文介绍了一个 RLAIF 框架，用于提高轻量级（<1B 个参数）LLM 的代码生成能力。我们特别关注需要编写适当 API 调用的代码生成任务，这很有挑战性，因为众所周知的问题......

来源:Apple机器学习研究

这篇论文被 ACL 2024 的自然语言推理和结构化解释研讨会接受。

从人工智能反馈中进行强化学习 (RLAIF) 已在各个领域展现出巨大潜力，包括减轻 LLM 输出中的危害、增强文本摘要和数学推理。本文介绍了一种 RLAIF 框架，用于提高轻量级（<1B 个参数）LLM 的代码生成能力。我们特别关注需要编写适当 API 调用的代码生成任务，这很有挑战性，因为 LLM 中存在众所周知的幻觉问题。我们的框架通过专门的提示策略从较大的 LLM（例如 GPT-3.5）中提取人工智能反馈，并使用这些数据训练奖励模型，以实现与较小 LLM 的更好对齐。我们在 Gorilla 数据集上运行实验，并根据各种指标（包括 AST、ROUGE 和 Code-BLEU）仔细评估模型生成的代码的质量，并开发一个管道来准确计算其可执行率。我们的方法显著提高了微调后的 LLM 基线的性能，可执行率提高了 4.5%。值得注意的是，使用 RLAIF 训练的较小 LLM 模型（780M 个参数）超过了具有 7B 个参数的较大微调基线，代码可执行率提高了 1.0%。

反馈奖励包括微调提高基线 LLM 代码生成推理执行人工智能框架数学 RLAIF

在轻量级 LLM 中应用 RLAIF 进行代码生成并使用 API

其他外部链接

Tags

XiaoMi-AI