在 DeepSeek 出圈将近一月之久,英伟达 CEO 黄仁勋终于首次公开回应 DeepSeek。当地时间 2 月 21 日,在美国 AI 数据情报平台 DataDirect Networks(DNN)公司举办的名为“Beyond Artificial”的主题活动上,DNN 的 CEO 亚历克斯·布扎里(Alex Bouzari)和黄仁勋进行了面对面对话。

对话中,黄仁勋表示 DeepSeek 模型在推理阶段表现出色,但是他认为后训练才是智能的核心。同时,黄仁勋表示:“DeepSeek 从天而降,人们说不再需要进行任何计算,事实恰恰相反。

因为 DeepSeek 所在做的让人们意识到,大模型可以比我们想象得更有效。因此它正在扩张和加速 AI 的使用。”


(来源:https://www.linkedin.com/events/7293474398047502337)

那么,为什么黄仁勋会说后训练才是智能的核心?为何黄仁勋能够如此淡定?下面为大家尝试揭开上述问题的答案。



Scaling Law 放缓,DeepSeek R1 在后训练阶段“闪现智慧”

阿联酋阿布扎比先进技术研究所研究员邹航表示,大语言模型的训练成本主要集中在预训练阶段,通常需要千卡甚至万卡集群在万亿级别的词元上训练数百万个 GPU 小时。

而后训练的成本的数量级一般远小于预训练。比如 DeepSeek V3 在 2048 张英伟达 H800 集群上训练了 14.8 万亿个词元,一次完整训练的成本约为 533 万美金。

单次后训练只花费约 1 万美金,仅相当于预训练的千分之二,同时模型并非一定要在万卡集群上训练。因此,Deep Seek R1 模型的后训练成本肯定高于 DeepSeek V3 模型,但是单次训练成本的数量级应该是相近的。

邹航指出,目前我们能够明显观察到预训练的缩放定律(Scaling Law)正在放缓。例如,马斯克的 xAI 公司刚刚发布的大模型 Grok3,虽然在 20 万个英伟达 H100 上完成训练,但是该模型相比 GPT-4o 以及 DeepSeek V3 的提升却是相当有限。所以,在预训练边际成本正在急速加大的同时,边际收益却几乎陷入停滞。

因此,OpenAI 于 2024 年 9 月份发布的 o1 模型所代表的推理时缩放(inference-time scaling),正在成为业界的新范式。然而,在 OpenAI o1 模型发布之后,业界思路一直停留在过程奖励模型以及蒙特卡洛树搜索上。

在 OpenAI o1 发布之后长达 3 个多月的空白期里,据邹航所知围绕 OpenAI o1 类模型的复现模型,几乎都无法达到与 OpenAI o1 相当的水平。这在以日为更新单位的大模型领域是非常难以想象的。

推理时缩放的难点在于,大模型的内嵌思维链到底该如何设计。业界早先的思路之所以效果不好(这一点在 DeepSeek R1 的技术报告中也被证实),主要是因为过程奖励监督以及蒙特卡洛树搜索很大程度上限制了模型推理时思维链的结构。类比一下,人类在思考复杂问题时,思路是千变万化的,并不存在一个固定的结构。

因此,邹航认为 DeepSeek 之所以能够轰动全球,包含了两个缺一不可的要素:第一,DeepSeek V3 模型通过工程技术以及算法的共同优化,大大降低了预训练的成本;第二,DeepSeek R1 独立探索出了有效的推理时缩放范式,其中最核心的发现是在数学、代码等具有明确答案的推理任务中,仅仅依靠强化学习(而非人类标注数据监督)的奖励,模型便能实现顿悟,展现出类似人类思考中的反思、多角度验证及反证等认知过程。

这一核心思路结合后续精巧的强化学习算法,使得基于 DeepSeek V3 模型进行后训练得到的 DeepSeek R1 模型,达到甚至超过了 OpenAI o1 的效果。因此,如果没有 DeepSeek R1 媲美 OpenAI o1 的惊人表现,那么 DeepSeek V3 中训练成本优化的意义显然会大大减低。

所以,邹航认为在预训练缩放规律放缓的前提下,基本可以认为 DeepSeek R1 所代表的深度思考类大模型的智慧是在后训练过程中出现的。需要说明的是,这里的智慧和知识有着明显区别,因为知识通常是在预训练阶段获得的。

中国人民大学陈旭教授则表示,所谓的开悟指的是,当模型在前期训练到一定程度时,突然展现出类似人类的自我反思和策略调整能力。此前,大模型开发者已经在实验中观察到这类现象。对于其背后的原理,目前领域内并没有达成共识,仍然处于观察阶段。



DeepSeek R1 浪潮将会刺激高性能 GPU 的需求

此外,很多人关注到 DeepSeek V3 的预训练成本较高,后训练成本较低。这是因为基础模型在训练的时候需要非常多的语料,比如可能需要接近 1T 的 Token。而使用人类反馈强化学习(RLHF,Reinforcement Learning fromHuman Feedback)的话,就不用太多的语料训练。

那么,后训练一定会消耗更多资源吗?对于 DeepSeek 以及 OpenAI 这样的产业级大模型来说,的确会消耗比较多的资源。但如果训练稍微小的模型,所消耗的资源就会比较少。

以 DeepSeek 的 R1 模型为例,它在推理阶段会进行大量的思考。当你向 DeepSeek R1 提出一个问题,在给出最终问题之前,它会在回答框里先输出一段由灰色字体组成的段落,这段灰色字体代表着它的思考过程,即模型正在输出思维链。那么,它推理的过程越长,消耗的算力就越多。

而此前英伟达的股价大跌事实上并不是一个理性的表现。陈旭认为,之所以 DeepSeek 能够在短期内影响英伟达的股价,是因为 DeepSeek 在训练上找到了一条捷径,这让它在预训练阶段节约了很多算力,也许让大家看到了降低算力成本的希望。

但是,对于一家小公司或者一个小团队来说,这依然是非常多的算力。举个不恰当的例子,以星巴克的杯型为例,以前需要的可能是“超大杯的算力”,现在需要的是“大杯的算力”。假如一直按照这样的趋势来发展,很有可能发展为只需要“中杯的算力”。

那么,预训练和后训练到底谁重要?陈旭表示,他认为目前很难讲两者谁更重要。OpenAI 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)曾表达过预训练已经走到尽头的说法,即仅仅依靠预训练将无法再提高预训练的性能。

正因此,人们开始越来越侧重于在模型的推理阶段,使用测试时扩展定律(inference time scaling)来做更复杂的推理,以此来提高模型性能。但是,如果没有针对基座模型开展大规模的训练,就很难实现较好的推理能力。


(来源:资料图)

那么,DeepSeek 是否真的极大影响了英伟达?陈旭表示,英伟达的股价之所以受到影响,可能是因为人们认为, DeepSeek 找到了训练大模型的捷径,与此同时,DeepSeek 开源了更多模型的细节,让人们更有信心做复现并进行进一步的开发。

自从 OpenAI 于 2022 年末以闭源形式出圈,到 DeepSeek 于 2025 年初以开源形式出圈以来,领域内一直在自行摸索,有时甚至不知道往哪儿发力。在这段时间内大家完全是两眼一抹黑,既不清楚未来的路,也不知道能否探索出来,就好比所有大模型开发者都站在一个迷雾森林里,没有人知道从哪条路可以走出森林。

而 DeepSeek 的开源,等于为大家提供了一条“公开的路”,让大模型开发者沿着这条路并辅以适当的“修路”,就可以往降本增效的方向去努力。这极大增加了大模型开发者的信心,正是这种信心让大家觉得算力还会得到进一步降低。

那么,为什么仍然需要英伟达显卡?对于中国来说,如果美国一直封禁英伟达的高端显卡,其实这才是真正会让英伟达感到担心的事情。

“因为这是锁不住的,像华为以及其他公司研发的芯片,目前已经具备还算不错的性能。美国越是封锁,中国人的能力被激发得越快。”陈旭表示,“目前,中国和美国是两个大模型研发投入较高的国家,而只有美国撤销封锁禁令,才会对英伟达产生利好。同时,我非常期待国产显卡的快速发展。”

而随着外部企业甚至连中小学都要接入 DeepSeek 模型,这必将产生更多算力需求。


(来源:资料图)

对于一款大模型来说,它在预训练阶段所使用的算力是相对固定的,即大模型完成训练之时,也是预训练结束使用算力之时。而推理阶段发生于大模型回答问题的时候,每当 DeepSeek 回答一位真人用户的问题,它就会进行一次推理。

以腾讯的混元大模型为例,其已经接入 DeepSeek 的 R1 模型,这就意味着腾讯将 DeepSeek R1 部署到了自家服务器上,那么这时腾讯就要为模型推理时所使用的算力付费。

同理,目前百度搜索也已经已经接入 DeepSeek R1,那么百度搜索就要为算力付费。也就是说,假如有越来越多的外部企业接入 DeepSeek,必然要使用更多的算力,进而必然要使用更多的显卡。

邹航也表达了同样的观点。他表示,DeepSeek R1 类深度思考模型在推理能力的增强上并非毫无代价。相对于没有应用推理时计算缩放的大模型,DeepSeek R1 必须先思考(即便思考时间非常短暂)然后再回答。

DeepSeek R1 内嵌的思维链就像人类在思考时打腹稿或者把思路写在草稿纸上。而思维链的生成过程实际上也是推理的一部分。因此,显而易见的是此类模型在数学等复杂推理类任务时,推理成本会急速上升。

例如,DeepSeek R1 在解决数学竞赛难度的问题上思考时间常常会长达数分钟,OpenAI o3 在高推理成本的设定下单次推理的成本就高达数千美金。

短期看来,近期大规模部署 DeepSeek R1 类深度思考模型的浪潮反而会刺激对于英伟达高性能 GPU 的需求。而从长期来看,DeepSeek 在 V3 模型探索中所展现出来的训练以及推理成本优化,更是会让业界进一步推进大模型各方面成本的降低,从而让大模型能够走入寻常百姓家。对于英伟达来讲,这似乎也不算坏消息。

参考资料:

https://www.linkedin.com/events/7293474398047502337/comments/

https://www.zhihu.com/question/12997012517

https://techcrunch.com/2025/02/21/nvidia-ceo-jensen-huang-says-market-got-it-wrong-about-deepseeks-impact/

运营/排版:何晨龙

ad1 webp
ad2 webp
ad1 webp
ad2 webp