GPQA

2025-02-06 机构名称:

AI的状态：中国

1。根据路透社（AA 1月31日）2。bytedance是一家私人公司。REUTERS的估值3。华为是一家私人公司。路透社的估值（2023）4。人工分析智能指数：一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU，GPQA Diamond，Math-500和Humaneval。 5。根据公司的索赔和可比结果估算，尚未通过人工分析独立基准。REUTERS的估值3。华为是一家私人公司。路透社的估值（2023）4。人工分析智能指数：一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU，GPQA Diamond，Math-500和Humaneval。5。根据公司的索赔和可比结果估算，尚未通过人工分析

查看详细

File

2025-02-02 机构名称:

DeepSeek-R1：通过增强学习激励LLM中的推理能力

•分数：MMLU的90.8％，MMLU-PRO的84.0％，GPQA钻石的71.5％。•胜过DeepSeek-v3，但尾随OpenAI-O1-1217。•与其他封闭式模型相比，教育任务擅长于教育任务。SimpleQA：胜过DeepSeek-V3，展示了强大的事实查询处理。

查看详细

File

2025-01-26 机构名称:

我们应该花多少钱来降低A.I.的存在风险？

1，例如，2024年12月，Openai预览了他们的O3型号。在PHD级考试和综合编码竞赛中，该模型的表现高于领域专家，例如，在GPQA PHD级别的科学基准上得分为87.7％（对IN-ELD PHD学生的70％左右为70％）。几个月前，O1型号得分为78％。请参阅https://www.datacamp.com/blog/o3-openai and Rein等。（2023）。

查看详细

File

2024-12-17 机构名称:

人工智能分析 AI 回顾 2024 年亮点...

1.人工分析质量指数：一系列语言模型智能和推理评估数据集的平均值。目前包括 MMLU、GPQA Diamond、MATH-500 和 HumanEval。根据实验室声称的某些非当前模型的评估结果进行估算。发布日期基于模型的首次公开发布。2.人工分析质量指数是根据实验室声称的某些模型（非当前或 API 尚不可用）的评估结果进行估算的。

查看详细

File

2024-03-04 机构名称:

Claude 3 模型家族：Opus、Sonnet、Haiku

我们推出了 Claude 3，这是一个新的大型多模式模型系列 - Claude 3 Opus 是我们功能最强大的产品，Claude 3 Sonnet 兼具技巧和速度，以及 Claude 3 Haiku ，是我们速度最快、价格最便宜的模型。所有新模型都具有视觉功能，可以处理和分析图像数据。Claude 3 系列在基准评估中表现出色，并在推理、数学和编码指标上树立了新标准。Claude 3 Opus 在 GPQA [1]、MMLU [2]、MMMU [3] 等评估中取得了最佳效果。Claude 3 Haiku 在大多数纯文本任务上的表现与 Claude 2 [4] 一样好甚至更好，而 Sonnet 和 Opus 则明显优于它。此外，这些模型在非英语语言中表现出更高的流利程度，使其更适合全球受众。在本报告中，我们对我们的评估进行了深入分析，重点关注核心能力、安全性、社会影响以及我们在负责任的扩展政策 [5] 中承诺的灾难性风险评估。

查看详细

XiaoMi-AI文件搜索系统

GPQA

AI的状态：中国

DeepSeek-R1：通过增强学习激励LLM中的推理能力

我们应该花多少钱来降低A.I.的存在风险？

人工智能分析 AI 回顾 2024 年亮点...

Claude 3 模型家族：Opus、Sonnet、Haiku

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI