利用 Amazon SageMaker AI 上的 SFT 和 DPO 提高代理的工具调用准确性 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

利用 Amazon SageMaker AI 上的 SFT 和 DPO 提高代理的工具调用准确性

2026年6月3日 15:56 33 Comments

在本文中，您将了解如何结合使用监督微调 (SFT) 和直接偏好优化 (DPO) 来提高小型语言模型 (SLM) 的工具调用准确性。该示例使用 Amazon SageMaker AI 训练作业，因此您可以专注于训练代码，而不是管理自己的训练基础设施。您还将学习如何评估工具调用的准确性，并将基本模型与多个微调变体进行比较，以便您可以就模型质量做出数据驱动的决策。

来源:亚马逊云科技 _机器学习

人工智能代理可以自主处理复杂的多步骤任务，但其有效性取决于调用正确的工具来检索信息或采取行动。当代理选择错误的工具、错误地设置参数格式或破坏工作流程链时，任务完成时间会增加，错误率会上升，支持成本会增加，并且用户体验会下降。随着越来越多的组织将代理应用程序从试点转向生产，让代理为每个请求选择正确的工具对于可靠的自动化至关重要。

微调方法

监督微调涉及策划与模型预期功能紧密结合的高质量数据集，提供模型应如何执行某些任务或与特定工具交互的明确示例。此方法对于训练模型识别特定于工具的语言、命令和约束的细微差别特别有效。

直接偏好优化通过将人类反馈或预定义目标直接纳入训练循环来完善这些交互。 DPO 通过强调对某些类型的响应或行为优于其他类型的响应或行为，使模型的输出与目标结果更紧密地保持一致。 DPO 中的训练数据包含“像这样，不是那样”的偏好，它优化与强化学习相同的目标，而无需奖励函数或奖励模型。这种方法减少了资源需求和培训时间，同时保持了质量。

来源：arXiv:2305.18290 [cs.LG]

可靠的目标交互的复杂的错误的相同的人工智能提高模型质量工具的驱动的结合的基础设施自动化奖励训练完成时间示例任务完成数据集偏好有效性调用应用程序工具自己的训练模型代理增加方法正确的模型的预定义数据包准确性 DPO 基本模型数据驱动质量数微调

利用 Amazon SageMaker AI 上的 SFT 和 DPO 提高代理的工具调用准确性

微调方法

其他外部链接

Tags

XiaoMi-AI