详细内容或原文请订阅后点击阅览
DeepSeek 训练高级 AI 模型的新方法如何再次颠覆一切
中国人工智能实验室可能刚刚找到了一种既实用又可扩展的前沿法学硕士培训方法,甚至对于资金短缺的开发人员来说也是如此。
来源:ZDNet | 机器人新闻关注 ZDNET:将我们添加为 Google 上的首选来源。
ZDNET 的关键要点
就在新的一年开始之前,人工智能世界引入了一种潜在的改变游戏规则的新方法来训练高级模型。
中国人工智能公司 DeepSeek 的一组研究人员周三发布了一篇论文,概述了所谓的流形约束超连接(Manifold-Constrained Hyper-Connections),简称 m HC,这可能为工程师提供一种构建和扩展大型语言模型的途径,而无需通常需要的巨大计算成本。
另外:DeepSeek的新模型是对专有AI的最新打击吗?
一年前,DeepSeek 发布了 R1,一跃成为人们关注的焦点,该模型的功能可与 OpenAI o1 的功能相媲美,而且据报道,其训练成本仅为其一小部分。这一发布令美国科技开发商感到震惊,因为它表明训练尖端人工智能模型并不一定需要获得大量资本和计算资源储备。
新的 m HC 论文可能会成为 DeepSeek 即将推出的模型 R2 的技术框架,该模型原本预计在去年年中推出,但被推迟,据报道是由于中国获得先进人工智能芯片的机会有限,以及该公司首席执行官梁文峰对该模型性能的担忧。
挑战
DeepSeek 的新论文发布在预印本服务器网站 arXiv 上,这是一个流行的在线资源,研究人员可以在其中分享尚未经过同行评审的研究结果,试图弥合阻碍人工智能模型可扩展性的复杂而重要的技术差距。
另外:Mistral 的最新开源版本更倾向于小型模型而不是大型模型 - 这就是原因
解决方案
另外:DeepSeek 可能会再次撼动人工智能世界 - 我们所知道的
