如何使用Ollama和Openai的Simple-evals在GPQA上基准deepSeek-r1蒸馏型

在DeepSeek-R1的蒸馏型模型上设置并运行GPQA-DIAMOND基准,以评估其推理能力。该帖子如何使用Ollama和OpenAI的Simple-Evals在GPQA上对GPQA进行基准deepSeek-R1蒸馏型,这首先出现在数据科学方面。

来源:走向数据科学

在全球AI社区中散发了涟漪。它与Meta和OpenAI的推理模型相当,在很少的时间和成本较低的情况下实现了突破。

deepseek-r1

除了头条新闻和在线嗡嗡声之外,我们如何使用公认的基准评估模型的推理能力?

DeepSeek的用户界面使探索其功能易于探索,但是通过编程方式使用它,可以提供更深入的见解,并在现实世界中提供更多的无缝集成。了解如何在本地运行此类模型还提供增强的控制和离线访问。

DeepSeek 用户界面

在本文中,我们探讨了如何使用Ollama和Openai的简单信息来评估DeepSeek-R1蒸馏型模型的推理能力,该模型基于著名的GPQA-Diamond基准。

Ollama OpenAi的简单词 gpqa-diamond

目录

(1)什么是推理模型?(2)什么是DeepSeek-R1?(3)了解蒸馏和DeepSeek-R1蒸馏模型(4)选择蒸馏模型(5)用于评估推理的基准(5)基准(6)所使用的工具(7)评估结果(8)逐步演练
(1) 什么是推理模型? (2) 什么是DeepSeek-R1? (3) 了解蒸馏和DeepSeek-R1蒸馏模型 (4) 选择蒸馏模型 (5) 评估推理的基准 (6) 使用的工具 (7) 评估结果 (8) 逐步演练

这是本文随附的GitHub存储库的链接。

链接到随附的github repo

(1)什么是推理模型?

推理模型,例如DeepSeek-R1和OpenAI的O系列模型(例如O1,O3),是使用强化学习来执行推理的大型语言模型(LLM)。

推理模型在回答之前先思考,在回应之前产生较长的内部思想链。他们在复杂的问题解决,编码,科学推理和对代理工作流程的多步规划方面表现出色。

(2)什么是DeepSeek-R1?

高级推理 DeepSeek-R1-Zero, OpenAI的O1模型 qwen