多模态视觉代理的自动提示优化:自动驾驶汽车示例

使用 Python 中的开源提示优化算法来提高在 OpenAI 的 GPT 5.2 上运行的自动驾驶汽车安全代理的准确性的演练多模态视觉代理的自动提示优化:自动驾驶汽车示例首先出现在 Towards Data Science 上。

来源:走向数据科学

优化多模式代理

多模式人工智能代理,即那些可以处理文本和图像(或其他媒体)的代理,正在迅速进入自动驾驶、医疗保健和机器人等现实世界领域。在这些设置中,我们传统上使用 CNN 等视觉模型;在后GPT时代,我们可以使用视觉和多模态语言模型,以提示的形式利用人类指令,而不是面向任务的、高度具体的视觉模型。

然而,确保模型取得良好结果需要有效的指导,或者更常见的是,及时的工程设计。现有的提示工程方法在很大程度上依赖于反复试验,而在处理图像等非文本模式时,令牌的复杂性和更高的成本往往会加剧这种情况。自动提示优化是该领域的最新进展,它可以系统地调整提示以产生更准确、一致的输出。

例如,自动驾驶汽车感知系统可能使用视觉语言模型来回答有关道路图像的问题。措辞不当的提示可能会导致误解或错误,从而造成严重后果。我们可以使用另一个具有推理能力的多模态模型来学习和适应其提示,而不是微调和强化学习。

虽然这些自动方法可以应用于基于文本的代理,但对于除了基本玩具数据集之外的更复杂的现实应用程序(例如手写或图像分类),它们通常没有很好的文档记录。为了最好地演示这些概念如何在更复杂、动态和数据密集的环境中发挥作用,我们将通过一个使用自动驾驶汽车代理的示例来演示。

什么是代理优化?

法学硕士如何优化提示?

本质上,法学硕士可以“充当”提示工程师并重写给定的提示。我们首先采用传统方法,就像提示工程师不断尝试和犯错一样,并要求小型代理通过几个示例检查其工作,修复错误并创建新的提示。