详细内容或原文请订阅后点击阅览
我尝试制作自己的(糟糕的)LLM 基准以在密室逃脱中作弊
最近,DeepSeek 发布了他们的最新模型 R1,一篇又一篇文章称赞其相对于成本的性能,以及此类开源模型的发布如何真正永远改变 LLM 的发展方向。这真是令人兴奋!而且,范围太大了,无法一一列举……但是当像 DeepSeek 这样的模型 […]The post I Tried Making my own (Bad) LLM Benchmark to Cheat in Escape Rooms 首次出现在 Towards Data Science 上。
来源:走向数据科学最近,DeepSeek 发布了他们的最新模型 R1,一篇又一篇文章称赞其相对于成本的性能,以及此类开源模型的发布如何真正永远改变 LLM 的发展方向。这真的令人兴奋!而且,范围太大了,无法一一列举……但是,当像 DeepSeek 这样的模型突然出现,拿着一把钢椅,拥有与其他模型相似的性能水平时,性能在这种情况下到底意味着什么?
性能如果您关注 AI 发布,您以前就见过这种舞蹈。每个新模型都会发布图表,显示它在数学问题上如何同时比 GPT-4 更好,同时更小、更高效。但这些基准究竟在衡量什么?它们是如何创建的?更重要的是,我们如何才能突破炒作,为特定用例创建自己的基准?
我想了解有关 LLM 基准测试的更多信息。
LLM 基准测试第 1 部分:什么是基准测试?(3 秒内)
TL:DR — LLM 的 SAT(实际上有多个)。
TL:DR第 1.1 部分:什么是基准测试?(3 秒内)
在深入研究具体基准测试的细节之前,让我们花点时间来解读“LLM 基准测试”的含义。因为称它们为“AI 的 SAT”既合适又有点过于简单。
LLM 基准测试本质上是结构化测试,用于衡量大型语言模型在某些任务上的表现。这些任务可以是任何事情,从识别陈述的真假,到总结法律文件,再到生成有效的 Python 函数。将它们视为由 AI 研究人员专门设计的障碍训练场,用于测试这些模型可能拥有的每个相关功能。这些框架通常提供具有已知正确输出的输入数据集,从而允许在模型之间进行一致的比较。
结构化测试 准确性 基于重叠的指标典型的基准测试通常打包为:
标准化数据集 评估协议 排行榜 MMLU 和