Harvey 谈 GPT 5.5、Clio 与现状、法律创新者 +

对于合法人工智能来说这是多么不可思议的一周——现在发生了很多事情!我们从 Harvey 对 OpenAI 新 GPT-5.5 前沿的分析开始总结……

来源:Artificial Lawyer

对于合法人工智能来说这是多么不可思议的一周——现在发生了很多事情!我们从 Harvey 对 OpenAI 的新 GPT-5.5 前沿模型的分析开始总结。

Harvey 使用自己的 BigLaw Bench 评估套件对模型进行了压力测试,发现它“建立在 GPT-5.4 的优势之上,具有更高的实质性准确性、更强大的组织结构以及跨法律实践领域更一致的格式”。

“早期访问评估显示,GPT-5.5 在交易和诉讼任务方面都取得了成效,在风险评估、交易管理和诉讼申请分析方面尤其具有优势。 GPT-5.5 的得分为 91.7%,高于 GPT-5.4 的 91.0%。这是迄今为止我们见过的最高分数之一。该模型取得了 43% 的满分,87% 的任务得分高于 0.80,零分低于 0.50。”

下面是 BLB 分数。总体得分提高了 0.7%。这并不是一个巨大的飞跃,但在当前人工智能进步的背景下,这是值得注意的。

另外,作为参考,这里是 Harvey 最近对 Anthropic 的 Claude Opus 4.7 的 BLB 评论——在更广泛的市场中,LLM 专家在非法律用途方面似乎对此褒贬不一。以下是其法律任务的得分。正如您所看到的,它比 4.6 有所改进 – 也提高了 0.7%。

对于这两个新模型,有一件事值得注意:本次迭代的总体改进小于之前的改进,即使某些任务的某些具体步骤可能会更大。例如。之前的 Opus 4.5 上涨了 1.9%,GPT 5.2 至 5.4 上涨了 1.2%。

这是否意味着模型改进正在放缓?

AL 必须强调的一件事是我们正在朝着正确的方向前进。我们正在逐步进入 90 年代中期,这很棒。此外,我们预计 Anthropic 的 Mythos 或其版本将会上市,这意味着它具有令人难以置信的性能。

在此处查看有关 Harvey 模型的更多信息。

艾德·沃尔特斯 –

关于人工智能如何改变合法工作生产的主题。

很棒的东西。

以及,