如何使用Ollama和Openai的Simple-evals在GPQA上基准deepSeek-r1蒸馏型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

如何使用Ollama和Openai的Simple-evals在GPQA上基准deepSeek-r1蒸馏型

2025年4月24日 01:31 33 Comments

在DeepSeek-R1的蒸馏型模型上设置并运行GPQA-DIAMOND基准，以评估其推理能力。该帖子如何使用Ollama和OpenAI的Simple-Evals在GPQA上对GPQA进行基准deepSeek-R1蒸馏型，这首先出现在数据科学方面。

来源:走向数据科学

在全球AI社区中散发了涟漪。它与Meta和OpenAI的推理模型相当，在很少的时间和成本较低的情况下实现了突破。

deepseek-r1

除了头条新闻和在线嗡嗡声之外，我们如何使用公认的基准评估模型的推理能力？

DeepSeek的用户界面使探索其功能易于探索，但是通过编程方式使用它，可以提供更深入的见解，并在现实世界中提供更多的无缝集成。了解如何在本地运行此类模型还提供增强的控制和离线访问。

DeepSeek 用户界面

在本文中，我们探讨了如何使用Ollama和Openai的简单信息来评估DeepSeek-R1蒸馏型模型的推理能力，该模型基于著名的GPQA-Diamond基准。

Ollama OpenAi的简单词 gpqa-diamond

推理模型，例如DeepSeek-R1和OpenAI的O系列模型（例如O1，O3），是使用强化学习来执行推理的大型语言模型（LLM）。

推理模型在回答之前先思考，在回应之前产生较长的内部思想链。他们在复杂的问题解决，编码，科学推理和对代理工作流程的多步规划方面表现出色。

高级推理 “ ” DeepSeek-R1-Zero， OpenAI的O1模型 qwen ，

嗡嗡声深入的较低的 OpenAI 推理模型 R1 复杂的使用提供蒸馏用户界面模型的著名的评估模型使用的情况探索增强的推理更多的模型公认的随附 DeepSeek 基准评估