中国顶级 AI 模型如何克服美国制裁

AI 社区对新的开源推理模型 DeepSeek R1 议论纷纷。该模型由中国 AI 初创公司 DeepSeek 开发,该公司声称 R1 在多个关键基准上与 OpenAI 的 ChatGPT o1 匹敌甚至超越,但运行成本仅为其一小部分。“这可能是一个真正均衡的突破,......

来源:MIT Technology Review _人工智能

美国对先进半导体的出口管制使情况进一步复杂化。然而,High-Flyer 进军人工智能领域的决定与这些限制直接相关。早在预期的制裁之前,梁就购买了大量 Nvidia A100 芯片库存,这种芯片目前被禁止出口到中国。中国媒体 36Kr 估计该公司库存超过 10,000 台,但人工智能研究咨询公司 SemiAnalysis 的创始人 Dylan Patel 估计至少有 50,000 台。梁意识到这笔库存在人工智能训练方面的潜力,于是创立了 DeepSeek,该公司能够将它们与低功耗芯片结合使用来开发其模型。

估计

新秀

阿里巴巴、字节跳动等科技巨头,以及少数资金雄厚的创业公司,在中国人工智能领域占据主导地位,中小企业难以与之竞争。像 DeepSeek 这样没有融资计划的公司实属罕见。

DeepSeek 前员工王子涵告诉《麻省理工科技评论》,在 DeepSeek 工作时,他可以获得丰富的计算资源,并可以自由进行实验,“这是任何公司很少有应届毕业生能享受到的奢侈”。

《麻省理工科技评论》

2024 年 7 月,梁在接受中国媒体 36 氪采访时表示,除了芯片制裁之外,中国企业面临的另一个挑战是,他们的人工智能工程技术往往效率较低。“我们(大多数中国公司)必须消耗两倍的算力才能达到同样的结果。再加上数据效率差距,这可能意味着需要高达四倍的计算能力。我们的目标是不断缩小这些差距,”他说。

2024 年 7 月接受中国媒体 36Kr 采访

向所有人开放