清华翟季冬：DeepSeek 百倍算力效能背后的系统革命

一线 AI 洞察，智者深度思考

深入产业变革，共创 AI 未来

2025 年伊始，全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 宣布 5000 亿美元的「星际之门」计划，Meta 在建规模超 130 万 GPU 的数据中心时，这个来自中国的团队打破了大模型军备竞赛的既定逻辑：用 2048 张 H800 GPU，两个月训练出了一个媲美全球顶尖水平的模型。

这一突破不仅撼动了英伟达万亿市值，更引发了整个行业的反思：在通往 AGI 的征程上，我们是否过于盲信算力规模，而忽视了一条更加务实且充满创新可能的路径？

与 2023 年「更大即更好」的粗放发展观不同，2025 年 AI 发展或将更像是一场精打细算的技术炼金：如何用最少的资源最大化模型效能，如何在特定场景实现极致效率。DeepSeek 已经展现出这种方式的威力——开发者总是倾向于选择性价比更高的开源方案，当千千万万的应用都以 DeepSeek 为基座，由此构建的生态将如何重塑 AI 产业格局？

本期《智者访谈》邀请到清华大学计算机系长聘教授、高性能计算研究所所长翟季冬，深入探讨大模型时代的 AI 算力优化之道。翟季冬教授指出，DeepSeek 实现百倍性价比提升的一个重要原因，是其在系统软件层面的深度创新。

「性能优化是一个无止境的过程，」翟季冬教授表示，在中国面临算力资源挑战的背景下，通过系统软件创新提升算力效能，是产业突围的关键。这不仅需要在编程语言、编译器、通信库、编程框架等多个技术层面发力，更需要建立起完整的基础软件体系。

当下，一个值得深思的现象是：尽管 AI 算力需求持续攀升，但国内众多智算中心的国产算力资源却存在闲置。供需错配的背后，暴露出基础软件体系的短板。

但困境也蕴含着重要机遇：如何打通从应用到系统软件，再到自主芯片的完整链路，探索出一条符合中国现实的发展路径？这不仅是技术创新，更是战略抉择。

在算力主导 AI 竞争力的时代，如何让每一份计算资源都能释放最大价值，这个问题本身，与答案同样重要。

视频链接：https://mp.weixin.qq.com/s/Elby5usJVFjEHU45MNDYWA

时间戳

03:35

DeepSeek 与算力需求未来趋势

06:41

算力效能评估新视角

10:26

中美硬件差异下的软件思考

14:00

为何还没 Transformer 专用芯片

17:41

万卡集群训练难点

21:01

降本增效：推理优化的关键

24:41

Infra 如何为下一代大模型做好准备

27:19

大规模异构集群的算力管理

29:42

智算供需错配：系统软件如何补位

访谈文字整理

机器之心：翟季冬教授好，欢迎做客机器之心的《智者访谈》。最近在 AI 算力市场出现了很多新的趋势。首先，大家讨论非常多的，Scaling Law 是不是真撞墙了？其次，随着 OpenAI o1/o3 模型的推出，通过增加推理计算时间也能够带来模型性能的显著提升，这也让我们重新思考，究竟要把算力用在哪里。

可以看到，如何提升算力的利用效率，成为业界越来越关注的议题。非常高兴能邀请到您，与我们一同从系统软件的角度探讨算力优化之道。

DeepSeek 的启发：性能优化永无止境

翟季冬：谢谢主持人。非常荣幸来到机器之心做交流。Dr. Ilya Sutskever 在一次论坛上表示，我们所知的 Scaling Law 已经快走到终点。我认为这个问题分几方面来看。首先，现在互联网上高质量的文本数据的确是越来越少，但多模态数据（比如图片、视频）还有很多挖掘空间，它们对未来模型训练会产生非常大的影响。

第二，以 OpenAI o1/o3 为代表的复杂推理系统，在后训练阶段使用了强化学习（RL）等技术，RL 会生成大量新的数据，这也导致对算力的需求持续增长。第三，如今训练一个基座模型，可能需要几周乃至一两个月的时间，如果有更多算力，几天就能预训练出一个好的模型，这也将极大地改变后期的生产效率。此外，对于终端的用户来说，大家对性能，包括对精度的追求实际上是无止境的。

机器之心：DeepSeek 公司最近在业界引发广泛讨论，他们以较低成本训练出了堪比国外顶尖水平的模型。从公开信息来看，您认为这里的提升主要在哪里？

翟季冬：首先是算法层次的创新。他们采用了新的 MoE 架构，使用了共享专家和大量细粒度路由专家的架构。通过将通用知识压缩到共享专家中，可以减轻路由专家的参数冗余，提高参数效率；在保持参数总量不变的前提下，划分更多的细粒度路由专家，通过灵活地组合路由专家，有助于更准确和针对性的进行知识表达。同时，通过负载均衡的算法设计，有效地缓解了传统 MoE 模型因负载不均衡带来训练效率低下的问题。

其次在系统软件层次，DeepSeek 采用了大量精细化的系统工程优化。例如，在并行策略方面，采用双向流水的并行机制，通过精细的排布，挖掘了计算和通信的重叠，有效的降低了流水并行带来的气泡影响；在计算方面，采用 FP8 等混合精度进行计算，降低计算复杂度；在通信方面，采用低精度通信策略以及 token 路由控制等机制有效降低通信开销。

上述算法和软件的创新与优化，极大地降低了模型的训练成本。DeepSeek 给我们的启示，更多在于如何在有限的算力情况下，通过算法和软件的协同创新，充分挖掘硬件的极致性能，对中国发展未来人工智能至关重要。

从 DeepSeek 的成功可以看出，在大模型领域仍然存在很多可以改进的空间。他们的创新涵盖了从算法、软件到系统架构的多个层面，为国内大模型的发展提供了很好的启发。

我是做高性能计算方向出身，我们领域一直在追求应用程序的极致性能。之前我在清华带领学生参加国际超算比赛时，每当拿到题目，我们就会不断思考：当你发现了负载的某些特点后，如何针对这些特点进行有效优化，可能会带来几十、几百，甚至上千倍的性能提升。可以说，性能优化是一个永无止境的过程。

在当前形势下，中国在算力资源方面面临很大挑战。国外像微软、X 公司等，投入了 10 万卡甚至更大的规模，在如此雄厚的算力基础上，他们可能会将更多精力放在设计更好的模型上，极致的性能优化也许并不是他们当前的重点。但当我们算力有限时，比如固定只有 1 万张加速卡，就需要思考如何更极致地利用好这些硬件，挖掘算法、系统，包括硬件等各方面协同创新的可能性。

机器之心：追求性能优化和模型创新两种发展路线是否相互冲突？它们能在同一个阶段共存吗？

翟季冬：从系统软件层面来看，它与算法发展是解耦的。换句话说，这些优化技术同样适用于算力更充足的场景，换到美国的研究环境中也可以应用，并不会阻碍上层模型的发展。

机器之心：业界似乎还没有一个客观评价算力利用效率的体系或标准。从您的角度看，我们应该如何科学、客观地评价算力的利用？

翟季冬：这是个很好的问题。现在一些科技报道中经常提到「GPU 利用率」这样的指标，但要评价一个系统是否用得好，很难用单一指标来衡量，就像评价一个人不能只看单一维度一样。

具体来说，在大模型训练时，GPU 利用率只是其中一个方面。在大型集群中，还包括网络设备、存储设备等。仅仅追求 GPU 利用率很高，而网络利用效率或内存使用率很低，这并不是最优的状态。从系统软件优化的角度，我们需要追求整体的均衡，可能通过提高网络和内存的使用率来适当降低 GPU 消耗。

评价标准也因场景而异。在训练场景中，我们更关注整个集群（包括加速卡、存储、网络、通信等）的整体利用效率。在推理场景中，终端用户更关心延迟，比如是否能在几毫秒内得到响应，除了第一个 token 的生成延迟，后续每个 token 之间的间隔时间也是重要的指标；算力提供方则更关注整体吞吐量，比如 1000 张加速卡每天能处理多少请求，是每天能响应 100 万个请求，还是 1000 万个请求。

一个经常被忽视但很重要的指标是成本，特别是每个 token 的处理成本。大家总说追求极致性能，但当我们将成本约束也纳入考虑时，对系统吞吐量和处理延迟的讨论会更有现实意义。从长远来看，显著降低推理成本对于推广 AI 应用至关重要。

中美硬件差异下的算力突围

系统软件双向适配

机器之心：由于中美之间的硬件差异，大家很关注软件栈层面是否会出现代际分叉，甚至发展出不同的科技树？

翟季冬：中国确实在系统软件方面面临着不同的思考方向。在美国和欧洲，AI 基础设施主要以 NVIDIA GPU 为主，但在中国，很难获得最先进的 NVIDIA 算力。

NVIDIA GPU 之所以受欢迎，很大程度上归功于其成熟的生态系统。我印象很深刻的是，从我读书时期开始，NVIDIA 就与清华等高校展开合作，探索如何更好地在他们的硬件上实现加速。他们现在的软件栈也是经过多年积累形成的。相比之下，中国的 AI 芯片公司大多始于最近几年，发展历程不到十年。

我们还有很长的路要走，无论是在底层编译器优化芯片算力，还是在多卡互连的高效通信协同方面。中国面临双重挑战：一方面需要补齐短板，提升芯片易用性；另一方面由于获取不到最先进的芯片制程工艺，可能会落后国外一到两代。这使得软件与硬件的协同优化在中国显得更为重要，我们需要挖掘所有可能的优化空间。

机器之心：从您的角度看，我们应该用什么样的思路来应对 NVIDIA 建立的软件生态壁垒？

翟季冬：作为后来者，我们首先要学习他们在算子库、编程语言和编译器方面的先进理念。在不违反知识产权的前提下，我们可以借鉴这些成果。但也不能完全照搬，而是要有自己的思考。例如，在工艺制程落后的情况下，我们可以在软件栈方面做些什么？针对与 NVIDIA 不同的架构特点，我们是否可以有自己的创新？

如果能够把从应用侧到系统软件，再到自主研制芯片的整条路径打通，我相信我们能找到一条适合中国现实环境的可行发展路线。

从学术角度来说，我们可以探索开发更好的领域特定编程语言，让用户编写高层代码时能自动生成更高效的实现。这里还有很多可以探索的空间，但要实现商业落地需要时间。

机器之心：说到大模型算力优化，为什么还没有芯片厂商推出 Transformer 专用芯片？您如何看待这个趋势？

翟季冬：我认为现在没有并不代表将来没有，可能有些公司正在这个方向上努力。从芯片设计到流片再到封装，整个过程成本非常高，必须要有足够大的市场空间才能支撑这种特定架构。

如果大模型最终确实会以 Transformer 架构为主，那么我们确实可以设计一款完全针对 Transformer 的专用芯片。但目前存在几个主要考虑：首先，AI 模型发展非常迅速，我们无法确定 Transformer 架构是否会一直保持主流地位，可能还会出现新的非 Transformer 架构。其次，Transformer 本身也在不断演化，比如 MoE 这样的稀疏激活模型，以及多模态 MoT（Mixture-of-Transformers）的稀疏特性，这些特性很难在芯片层面直接描述。

回顾最近这一波 AI 发展，大约从 2012 年至今，最初以卷积神经网络为主，一些芯片公司专门为卷积设计了 ASIC 芯片。但到了 2017 年后，Transformer 架构逐渐兴起，与卷积有很大的不同，导致之前针对卷积优化的 ASIC 芯片难以适应新的架构。

值得一提的是，在此过程中 NVIDIA 虽然也在其芯片架构中添加了各种新的硬件模块，但整体架构保持相对稳定，通过系统软件来适应应用的变化，比如他们的 Tensor Core 针对矩阵乘法进行优化，而不是专门为 Transformer 的某个组件（如 Attention）设计特定架构。

机器之心：NVIDIA 的做法能给我们带来什么启示？

翟季冬：从软件角度来说，最大的启示是以不变应万变。专用硬件的设计思路，本质上是把具体的算法用电路去实现，但设计的关键在于如何把这个具体的算法拆解成合适的、通用的基本硬件单元，以便各种应用都能通过这些基本单元来实现。例如，NVIDIA 的 Tensor Core 就是将各种操作都转换成矩阵乘法，这种映射方式相对更灵活。

拆解的核心在于粒度要恰到好处：粒度过大，小型应用难以有效利用硬件资源，造成浪费且性能下降；粒度过小，则会增加数据搬运和调度开销，降低整体效率，并增加硬件和软件的复杂度。这是一个需要权衡的设计选择。

机器之心：现在很多公司一方面投资现有基础设施购买各类计算卡，一方面也在与高校合作并投资创业公司，以应对非 Transformer 架构带来的挑战。从系统软件层面来看，这种布局能在多大程度上应对下一代技术的冲击？

翟季冬：系统软件的本质是将上层应用程序更好地映射到底层硬件。一方面要关注应用层面的变化，比如现在多模态模型越来越重要，我们就需要思考多模态带来的新模式和负载特征，同时要关注底层架构的演进，无论是 NVIDIA GPU 还是国产加速卡，都可能会增加新的计算单元或访存单元，我们需要思考如何更好地利用这些硬件特性。

系统软件的核心任务是密切关注上下层的变化，通过中间层的合理设计将两端匹配起来，让硬件效率发挥到极致。对于正在探索的新型模型，我们需要分析它们的负载特征，研究如何更好地映射到底层芯片以充分利用硬件资源。

从提前布局的角度来说，系统软件要做好新兴应用负载的分析。同时，当新的芯片架构出现时，系统软件也要及时做出相应的改进和适配。这种双向的适配能力，是系统软件应对技术变革的关键。

万卡集群时代的算力优化

机器之心：您参与了多个基座大模型的训练，在使用万卡级集群方面有第一手经验，能否分享一下在这种超大规模训练中遇到的主要技术挑战？

翟季冬：2021 年，我们与北京智源研究院等机构合作，使用新一代神威超算系统进行一个基座大模型的训练，可以把它理解为一个 10 万卡的集群。在这个过程中，我体会到大模型训练主要有几方面的挑战。

首先是并行策略的选择。因为模型很大，用 10 万台机器去做，就要把模型进行切分，就像把一块豆腐要切成很多块，可以切成方块，也可以切成细条，原理是一样的。要把一个大模型分到 10 万台机器上，也有很多切分方式。用术语来讲，比如说有数据并行、模型并行、流水线并行、序列并行等等，每个并行策略都有自己的优缺点。在 10 万台机器上，如何组合这些并行策略，本身就是很大的挑战。而且 10 万规模的集群，没办法像单卡那样反复测试各种策略，一定要把策略分析清楚了才去跑，因为一次的测试成本就很高，也不允许做太多次尝试。

第二个挑战是通信问题。10万台机器需要通过高速网络互连，但不同的机器组网方式不一样，网络的拓扑是不一样的。大模型训练时有很多通信函数，这些通信函数如何跟底层的网络拓扑高效映射是一大挑战。我们发现，不同的通信策略可能导致 1-2 倍的性能差异。

第三个挑战是容错机制。当机器规模增大，整个系统平均无故障时间就会非常小。基座模型训练通常需要几周到一两个月。我们必须设计轻量级的容错机制，在硬件出现故障时能够快速替换出错的卡并继续训练，同时将这个开销降得越低越好。

最后，单卡性能也至关重要。在关注万卡、10 万卡这类整体系统的同时，也要把单卡效率打得特别高，比如通过编译优化等策略，确保每张卡都能发挥出极致性能。

机器之心：在提升算力利用率方面，我们应该关注哪些点？

翟季冬：大模型的生命周期包含多个阶段，每个阶段对算力的需求都不相同。我们刚才谈了预训练，但在预训练模型完成后，还有一个很重要的阶段就是后训练（post training）。以 OpenAI o1/o3 为代表的后训练技术，为整个训练过程带来了新的挑战。

后训练包括生成阶段、推理阶段和微调阶段，每个阶段的负载特点都不同，最优的并行策略也会不同。需要注意的是，不能简单地追求每个阶段的局部最优，因为阶段之间的切换也会产生开销。我们要从整个 pipeline 的角度来考虑优化策略。后训练还面临着负载不均衡的问题，需要探索如何有效重叠不同阶段以提高资源利用率。

在微调阶段，客户往往会用自己的私有数据对基座模型进行调整。由于硬件资源可能有限，这时需要考虑一些特殊的策略，比如 offloading，也即当 GPU 内存不足时，将部分参数存储在 CPU 端。微调本身作为一个训练过程，对并行策略也有很高要求。

推理阶段的优化面临更多挑战：

KV Cache 管理：推理过程会产生大量中间结果（KV Cache）用于降低计算量。如何管理这些数据很关键，比如可以采用页面式管理，但页面大小是固定还是根据负载特征动态调整，都需要仔细设计。
多卡协同：当模型较大时需要多 GPU 配合，比如在 8 个 GPU 上进行大模型推理，如何优化卡间并行也是一大挑战。
算法优化：还可以从量化等角度进行优化，充分发挥底层算力性能。

总的来说，从预训练到后训练，再到微调和推理，每个阶段对算力的要求都不同，我们需要针对这些特点进行深入的优化。

机器之心：如果要建设百万卡集群，是选择多家厂商的卡，还是只选择少数厂商乃至单独一家的卡更好？

翟季冬：从管理和使用效能的角度来说，选择单一类型的加速卡无疑是最方便的。但实际情况往往更加复杂。比如说在美国，企业可能先购入 1000 张 A100，后来又添置 1000 张 H100。不同代际的加速卡存在性能差异，整合使用时就会带来系统优化的挑战，而且这个问题在训练和推理场景下的表现也不尽相同。

从系统软件角度看，这实际上是芯片碎片化的挑战。我目前正在负责一个项目，面向异构芯片的统一编程和编译优化。核心理念是，虽然底层使用不同的 AI 芯片，但在编程模型和编译优化层面要尽可能统一。我们希望同一套程序能在不同加速卡上都发挥出高效性能，同时降低不同加速卡间的移植开销。

很多人都说过，希望算力像水电一样成为基础设施。用电时我们并不需要关心是风力发电还是煤炭发电。要实现这个目标，实际上有很长的路要走，我们需要做好中间层的软件工作。此外，还要建立完善的算力度量标准，比如如何计算算力使用量，如何计价，这些都需要标准化。

在现阶段，我们还是需要关注底层硬件的具体情况。但未来的发展方向是，通过完善中间层的系统软件，为用户提供透明的接口。用户只需要调用简单的 API 就能方便使用各种算力资源，不必关心底层细节。这可能是一个终极的发展方向。

机器之心：那我们把时间拉近一些，未来 1-3 年内，系统软件优化方面可能会看到哪些显著趋势或变化？

翟季冬：目前我国各省市建立了许多智算中心，以国产算力为主。我们观察到一个现象是，尽管应用开发者普遍缺乏算力资源，但许多国产算力中心却存在闲置现象。用户更倾向于使用 NVIDIA 这样开箱即用的解决方案。

这种状况其实带来了重要机遇：如何将巨大的算力需求与现有的国产算力有效对接？我们的目标是让国产算力达到同样的易用性，使用户感受不到差异。这不仅能促进人工智能在中国各行各业的发展，也能带动从芯片到软件再到应用的整体发展。

为此，我们实验室孵化了一家公司「清程极智」，致力于为国产闲置算力提供更友好的接口，帮助行业用户方便地整合各类国产算力资源。

从技术层面来说，这不仅仅是优化算子库那么简单。系统软件的完整建设应该包括编程语言、编译器、通信库、并行计算、编程框架，这些方向都需要投入。就像木桶效应，任何一个短板都可能影响芯片的整体使用效果。要充分发挥国产算力的性能，我们需要在这些方向全面发力，才能真正把算力这个方向做好。

嘉宾简介

翟季冬，清华大学计算机系长聘教授，博士生导师，高性能计算研究所所长。青海大学计算机技术与应用学院院长。CCF高性能计算专委副主任、CCF杰出会员。清程极智首席科学家。

主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文 100 余篇，出版专著一部。研究成果获 IEEE TPDS 2021 最佳论文奖、IEEE CLUSTER 2021 最佳论文奖、ACM ICS 2021 最佳学生论文奖等。担任清华大学学生超算团队教练，指导的团队 15 次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS 青年科学家奖、高校计算机专业优秀教师奖励计划。国家杰出青年科学基金获得者。