Harvey 谈 GPT 5.5、Clio 与现状、法律创新者 + XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Harvey 谈 GPT 5.5、Clio 与现状、法律创新者 +

2026年4月24日 07:34 33 Comments

对于合法人工智能来说这是多么不可思议的一周——现在发生了很多事情！我们从 Harvey 对 OpenAI 新 GPT-5.5 前沿的分析开始总结……

来源:Artificial Lawyer

对于合法人工智能来说这是多么不可思议的一周——现在发生了很多事情！我们从 Harvey 对 OpenAI 的新 GPT-5.5 前沿模型的分析开始总结。

Harvey 使用自己的 BigLaw Bench 评估套件对模型进行了压力测试，发现它“建立在 GPT-5.4 的优势之上，具有更高的实质性准确性、更强大的组织结构以及跨法律实践领域更一致的格式”。

“早期访问评估显示，GPT-5.5 在交易和诉讼任务方面都取得了成效，在风险评估、交易管理和诉讼申请分析方面尤其具有优势。 GPT-5.5 的得分为 91.7%，高于 GPT-5.4 的 91.0%。这是迄今为止我们见过的最高分数之一。该模型取得了 43% 的满分，87% 的任务得分高于 0.80，零分低于 0.50。”

下面是 BLB 分数。总体得分提高了 0.7%。这并不是一个巨大的飞跃，但在当前人工智能进步的背景下，这是值得注意的。

另外，作为参考，这里是 Harvey 最近对 Anthropic 的 Claude Opus 4.7 的 BLB 评论——在更广泛的市场中，LLM 专家在非法律用途方面似乎对此褒贬不一。以下是其法律任务的得分。正如您所看到的，它比 4.6 有所改进 – 也提高了 0.7%。

对于这两个新模型，有一件事值得注意：本次迭代的总体改进小于之前的改进，即使某些任务的某些具体步骤可能会更大。例如。之前的 Opus 4.5 上涨了 1.9%，GPT 5.2 至 5.4 上涨了 1.2%。

这是否意味着模型改进正在放缓？

AL 必须强调的一件事是我们正在朝着正确的方向前进。我们正在逐步进入 90 年代中期，这很棒。此外，我们预计 Anthropic 的 Mythos 或其版本将会上市，这意味着它具有令人难以置信的性能。

在此处查看有关 Harvey 模型的更多信息。

—

艾德·沃尔特斯 –

关于人工智能如何改变合法工作生产的主题。

很棒的东西。

–

以及，

具有工作生产人工智能方面提高 Harvey 诉讼 0.7% 意味着得分 5.4 Anthropic 强大的压力测试 5.5 一致的迭代的任务模型改进巨大的自己的评估正确的模型的风险评估准确性分析法律广泛的 BLB GPT 生产的

Harvey 谈 GPT 5.5、Clio 与现状、法律创新者 +

其他外部链接

Tags

XiaoMi-AI