详细内容或原文请订阅后点击阅览
阿里巴巴 vs. OpenAI:新模型能否胜过 ChatGPT?
阿里巴巴的新 AI 模型 QwQ-32B-Preview 以其出色的数学和逻辑技能向 ChatGPT 发起挑战,在关键基准测试中超越竞争对手。该模型在开放许可下发布,具有高级推理能力,但在需要强大常识理解的任务中仍然举步维艰。
来源:Qudata阿里巴巴 vs. OpenAI:新模型能超越 ChatGPT 吗?
新的 AI 模型 QwQ-32B-Preview 已成为推理 AI 领域的有力竞争者,尤其是因为它是在 Apache 2.0 许可下提供的,即开放用于商业用途。这个由阿里巴巴 Qwen 团队开发的 325 亿参数模型可以处理多达 32,000 个单词的提示,并且在某些基准测试中优于 OpenAI 的 o1-preview 和 o1-mini。
根据阿里巴巴的测试,QwQ-32B-Preview 在 AIME 和 MATH 测试中优于 OpenAI 的 o1-preview 模型。AIME 使用其他 AI 系统评估模型,而 MATH 则由一组具有挑战性的文字问题组成。新模型的推理能力使其能够解决逻辑难题和中等难度的数学问题,但它并非没有局限性。例如,阿里巴巴承认该模型可能会意外切换语言、陷入重复循环或在需要强大常识推理的任务中挣扎。
与许多传统 AI 系统不同,QwQ-32B-Preview 包含一种自我检查机制,可帮助其避免常见错误。虽然这种方法提高了准确性,但也增加了生成解决方案所需的时间。与 OpenAI 的 o1 模型类似,QwQ-32B-Preview 采用系统推理过程,规划其步骤并有条不紊地执行它们以得出答案。
可在 Hugging Face 平台上访问 QwQ-32B-Preview虽然 QwQ-32B-Preview 是在允许的许可下销售的,但并非模型的所有组件都已发布。这种部分开放限制了完全复制模型或全面了解其架构的能力。关于人工智能开发中“开放性”的争论仍在继续,模型范围从完全封闭的系统(仅提供 API 访问)到完全开放的系统(披露所有细节,包括权重和数据)。QwQ-32B-Preview 占据了这一范围的中间位置。