SFT关键词检索结果

用于多代理编排的高级微调技术:来自 Amazon 的大规模模式

Advanced fine-tuning techniques for multi-agent orchestration: Patterns from Amazon at scale

在这篇文章中,我们向您展示微调如何使危险用药错误减少 33%(Amazon Pharmacy)、工程人力减少 80%(Amazon Global Engineering Services)以及内容质量评估如何提高 77% 至 96% 的准确性(Amazon A+)。这篇文章详细介绍了这些结果背后的技术:从监督微调 (SFT)(指令调优)和近端策略优化 (PPO) 等基础方法,到用于人类对齐的直接偏好优化 (DPO),再到尖端推理优化,例如基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO)。