用于多代理编排的高级微调技术：来自 Amazon 的大规模模式 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

用于多代理编排的高级微调技术：来自 Amazon 的大规模模式

2026年1月16日 15:51 33 Comments

在这篇文章中，我们向您展示微调如何使危险用药错误减少 33%（Amazon Pharmacy）、工程人力减少 80%（Amazon Global Engineering Services）以及内容质量评估如何提高 77% 至 96% 的准确性（Amazon A+）。这篇文章详细介绍了这些结果背后的技术：从监督微调 (SFT)（指令调优）和近端策略优化 (PPO) 等基础方法，到用于人类对齐的直接偏好优化 (DPO)，再到尖端推理优化，例如基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO)。

来源:亚马逊云科技 _机器学习

我们与大型企业客户和 Amazon 团队的合作表明，高风险用例继续从先进的大语言模型 (LLM) 微调和训练后技术中受益匪浅。在这篇文章中，我们向您展示微调如何使危险用药错误减少 33%（Amazon Pharmacy）、工程人力减少 80%（Amazon Global Engineering Services）以及内容质量评估如何提高 77% 至 96% 的准确性（Amazon A+）。这些不是假设的预测——它们是亚马逊团队的生产结果。虽然许多用例可以通过快速工程、检索增强生成 (RAG) 系统和交钥匙代理部署来有效解决，但我们与 Amazon 和大型企业客户的合作揭示了一个一致的模式：四分之一的高风险应用程序（患者安全、运营效率或客户信任处于线上）需要先进的微调和后期培训技术来实现生产级性能。

本文详细介绍了这些结果背后的技术：从监督微调 (SFT)（指令调优）和近端策略优化 (PPO) 等基础方法，到用于人类对齐的直接偏好优化 (DPO)，再到基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO) 等前沿推理优化。我们将详细介绍每种方法的技术演变，检查 Amazon 的实际实施情况，在 Amazon Web Services (AWS) 上提供参考架构，并提供决策框架以根据您的用例需求选择正确的技术。

代理人工智能微调的持续相关性

用于代理 AI 的 LLM 微调技术的演变

亚马逊的实际应用程序

使用微调的高级 AI 编排参考架构

简单的工作流程

Amazon 假设的用例一致的 LLM 人工智能提高架构代理根据 Services 先进的高风险优化微调质量代理人简单的客户实际应用四分之一背后的正确的技术工程技术的 AI 应用程序策略相关性准确性