为什么人工智能调整始于更好的评估

你无法调整你不评估的东西“为什么人工智能调整从更好的评估开始”一文首先出现在《走向数据科学》上。

来源:走向数据科学

在 IBM TechXchange,我花了很多时间与已经在生产中运行 LLM 系统的团队相处。一场让我印象深刻的对话来自 LangSmith,他们开发了用于监控、调试和评估 LLM 工作流程的工具。

IBM TechXchange

我最初认为评估主要是关于基准和准确度数字。他们立即反驳了这一点。他们的观点很简单:在笔记本电脑中表现良好的模型在实际使用中仍然可能表现得不可预测。如果您不根据实际场景进行评估,那么您就没有调整任何内容。你只是猜测。

两周前,在 Cohere Labs Connect Conference 2025 上,这个话题再次出现。这一次,消息来得更加紧迫。他们的一位领导指出,公共指标可能很脆弱,很容易被利用,而且很少能代表生产行为。他们说,评估仍然是该领域最难、最难解决的问题之一。

Cohere Labs Connect 会议 2025

从两个不同的地方听到相同的警告让我感到有些触动。大多数与法学硕士合作的团队并没有努力解决有关一致性的哲学问题。他们正在应对日常的工程挑战,例如:

    为什么模型在一次小的提示更新后会改变行为?为什么即使测试看起来很干净,用户查询也会引发混乱?为什么模型在标准化基准上表现良好,但在内部任务上表现不佳?为什么即使护栏看起来很坚固,越狱也会成功?
  • 为什么模型在小提示更新后会改变行为?
  • 为什么即使测试看起来很干净,用户查询也会引发混乱?
  • 为什么模型在标准化基准上表现良好,但在内部任务上表现不佳?
  • 为什么护栏看上去很坚固,越狱却能成功?
  • 如果您感觉其中任何一项很熟悉,那么您与其他正在攻读法学硕士学位的人处于相同的位置。从这里开始,对齐开始感觉像是一个真正的工程学科,而不是一个抽象的对话。

  • 参考文献