详细内容或原文请订阅后点击阅览
用于多代理编排的高级微调技术:来自 Amazon 的大规模模式
在这篇文章中,我们向您展示微调如何使危险用药错误减少 33%(Amazon Pharmacy)、工程人力减少 80%(Amazon Global Engineering Services)以及内容质量评估如何提高 77% 至 96% 的准确性(Amazon A+)。这篇文章详细介绍了这些结果背后的技术:从监督微调 (SFT)(指令调优)和近端策略优化 (PPO) 等基础方法,到用于人类对齐的直接偏好优化 (DPO),再到尖端推理优化,例如基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO)。
来源:亚马逊云科技 _机器学习我们与大型企业客户和 Amazon 团队的合作表明,高风险用例继续从先进的大语言模型 (LLM) 微调和训练后技术中受益匪浅。在这篇文章中,我们向您展示微调如何使危险用药错误减少 33%(Amazon Pharmacy)、工程人力减少 80%(Amazon Global Engineering Services)以及内容质量评估如何提高 77% 至 96% 的准确性(Amazon A+)。这些不是假设的预测——它们是亚马逊团队的生产结果。虽然许多用例可以通过快速工程、检索增强生成 (RAG) 系统和交钥匙代理部署来有效解决,但我们与 Amazon 和大型企业客户的合作揭示了一个一致的模式:四分之一的高风险应用程序(患者安全、运营效率或客户信任处于线上)需要先进的微调和后期培训技术来实现生产级性能。
本文详细介绍了这些结果背后的技术:从监督微调 (SFT)(指令调优)和近端策略优化 (PPO) 等基础方法,到用于人类对齐的直接偏好优化 (DPO),再到基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO) 等前沿推理优化。我们将详细介绍每种方法的技术演变,检查 Amazon 的实际实施情况,在 Amazon Web Services (AWS) 上提供参考架构,并提供决策框架以根据您的用例需求选择正确的技术。
