用于多代理编排的高级微调技术:来自 Amazon 的大规模模式

在这篇文章中,我们向您展示微调如何使危险用药错误减少 33%(Amazon Pharmacy)、工程人力减少 80%(Amazon Global Engineering Services)以及内容质量评估如何提高 77% 至 96% 的准确性(Amazon A+)。这篇文章详细介绍了这些结果背后的技术:从监督微调 (SFT)(指令调优)和近端策略优化 (PPO) 等基础方法,到用于人类对齐的直接偏好优化 (DPO),再到尖端推理优化,例如基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO)。

来源:亚马逊云科技 _机器学习

我们与大型企业客户和 Amazon 团队的合作表明,高风险用例继续从先进的大语言模型 (LLM) 微调和训练后技术中受益匪浅。在这篇文章中,我们向您展示微调如何使危险用药错误减少 33%(Amazon Pharmacy)、工程人力减少 80%(Amazon Global Engineering Services)以及内容质量评估如何提高 77% 至 96% 的准确性(Amazon A+)。这些不是假设的预测——它们是亚马逊团队的生产结果。虽然许多用例可以通过快速工程、检索增强生成 (RAG) 系统和交钥匙代理部署来有效解决,但我们与 Amazon 和大型企业客户的合作揭示了一个一致的模式:四分之一的高风险应用程序(患者安全、运营效率或客户信任处于线上)需要先进的微调和后期培训技术来实现生产级性能。

本文详细介绍了这些结果背后的技术:从监督微调 (SFT)(指令调优)和近端策略优化 (PPO) 等基础方法,到用于人类对齐的直接偏好优化 (DPO),再到基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO) 等前沿推理优化。我们将详细介绍每种方法的技术演变,检查 Amazon 的实际实施情况,在 Amazon Web Services (AWS) 上提供参考架构,并提供决策框架以根据您的用例需求选择正确的技术。

代理人工智能微调的持续相关性

用于代理 AI 的 LLM 微调技术的演变

亚马逊的实际应用程序

使用微调的高级 AI 编排参考架构

  • 简单的工作流程