Advanced fine-tuning techniques for multi-agent orchestration: Patterns from Amazon at scale
在这篇文章中,我们向您展示微调如何使危险用药错误减少 33%(Amazon Pharmacy)、工程人力减少 80%(Amazon Global Engineering Services)以及内容质量评估如何提高 77% 至 96% 的准确性(Amazon A+)。这篇文章详细介绍了这些结果背后的技术:从监督微调 (SFT)(指令调优)和近端策略优化 (PPO) 等基础方法,到用于人类对齐的直接偏好优化 (DPO),再到尖端推理优化,例如基于策略优化的分组强化学习 (GRPO)、直接优势策略优化 (DAPO) 和专为代理系统构建的组序列策略优化 (GSPO)。
Popular blood pressure drug recalled over contamination risk
一种用于治疗高血压的常用药物在测试显示某些批次可能受到另一种药物污染后即将下架。 Glenmark Pharmaceuticals 宣布召回多批以 Ziac 品牌销售的富马酸比索洛尔和氢氯噻嗪片剂。美国食品公司也分享了这一召回事件 […]因污染风险而召回的流行血压药物的帖子首先出现在 Knowridge Science Report 上。