详细内容或原文请订阅后点击阅览
NVIDIA 在合成数据生成和 AI 对齐方面的突破
Nemotron-4 340B 是用于合成数据生成和 AI 校准的高级模型系列。它经过 9 万亿个 token 的训练,在优化性能和确保数据质量方面表现出色,显著增强了各个行业的 AI 能力。
来源:QudataNVIDIA 在合成数据生成和 AI 对齐方面的突破
NVIDIA 推出了 Nemotron-4 340B 模型系列,这是一套强大的开放访问模型,旨在改进合成数据生成和大型语言模型 (LLM) 的训练。此版本包括三个不同的模型:Nemotron-4 340B Base、Nemotron-4 340B Instruct 和 Nemotron-4 340B Reward。这些模型有望显著增强医疗保健、金融、制造和零售等广泛行业的 AI 能力。
NVIDIA 推出了 Nemotron-4 340B 模型系列Nemotron-4 340B 的核心创新在于它能够生成高质量的合成数据,这是训练有效 LLM 的关键组成部分。高质量的训练数据通常价格昂贵且难以获得,但使用 Nemotron-4 340B,开发人员可以大规模创建强大的数据集。基础模型 Nemotron-4 340B Base 是在 9 万亿个 token 的庞大语料库上进行训练的,并且可以使用专有数据进一步微调。Nemotron-4 340B Instruct 模型生成模拟真实场景的各种合成数据,而 Nemotron-4 340B Reward 模型则通过评估基于有用性、正确性、连贯性、复杂性和详细程度的响应来确保这些数据的质量。
图 1 合成数据生成管道 [来源] 来源Nemotron-4 340B 的一个突出特点是其复杂的对齐过程,它使用直接偏好优化 (DPO) 和奖励感知偏好优化 (RPO) 来微调模型。DPO 通过最大化首选和非首选答案之间的奖励差距来优化模型的响应,而 RPO 通过考虑响应之间的奖励差异来进一步完善这一点。这种双重方法确保模型不仅能产生高质量的输出,而且还能在各种评估指标之间保持平衡。
NVIDIA NGC Hugging Face