DeepSeek:更智能、更快、更便宜?

来自中国的一款智能聊天机器人导致大型科技股暴跌,但其制造成本是否低廉仍受到质疑。

来源:OSP网站大数据新闻

DeepSeek 是 ChatGPT 的竞争对手,于 1 月底在中国问世,由于免费提供同样的功能,已迅速成为许多国家苹果应用商店下载次数最多的应用程序。此外,用户注意到,在某些情况下,DeepSeek 的响应质量优于 ChatGPT。 DeepSeek 背后是谁?它为何引起如此轰动?

DeepSeek 是一家初创公司,其主要投资者 High-Flyer 此前曾宣布计划在通用人工智能领域组建一个独立的研究小组。据悉,High-Flyer 拥有用于训练 AI 模型的芯片集群专利。

该聊天机器人基于两个大型语言模型 DeepSeek R1 和 DeepSeek-V3,这两个模型是基于开源模型 Llama 和 Qwen 构建的。 DeepSeek R1 具有内置的自我检查机制,这使得模型能够避免其他聊天机器人所犯的一些愚蠢的错误,这可能就是为什么响应质量被认为更好的原因。 DeepSeek 自己声称,R1 在一系列标准测试中的表现优于 ChatGPT 推理引擎最初基于的第一代模型 OpenAI o1。

但 DeepSeek 的主要优势在于,与 ChatGPT 和其他智能聊天机器人相比,其训练成本较低 —— 根据初步估计,它便宜了一个数量级。据 DeepSeek 自己称,中国机器人是在 Nvidia H800 芯片上进行训练的,该芯片的性能和价格都低于最新的 H100,而美国政府禁止向中国出口 H100。

股市对 DeepSeek 成本效益优势的消息做出了反应,包括芯片制造商 Nvidia 和 AMD 在内的主要 AI 参与者的股价大幅下跌。