一线 AI 洞察,智者深度思考

深入产业变革,共创 AI 未来



2025 年伊始,全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 宣布 5000 亿美元的「星际之门」计划,Meta 在建规模超 130 万 GPU 的数据中心时,这个来自中国的团队打破了大模型军备竞赛的既定逻辑:用 2048 张 H800 GPU,两个月训练出了一个媲美全球顶尖水平的模型。

这一突破不仅撼动了英伟达万亿市值,更引发了整个行业的反思:在通往 AGI 的征程上,我们是否过于盲信算力规模,而忽视了一条更加务实且充满创新可能的路径?

与 2023 年「更大即更好」的粗放发展观不同,2025 年 AI 发展或将更像是一场精打细算的技术炼金:如何用最少的资源最大化模型效能,如何在特定场景实现极致效率。DeepSeek 已经展现出这种方式的威力——开发者总是倾向于选择性价比更高的开源方案,当千千万万的应用都以 DeepSeek 为基座,由此构建的生态将如何重塑 AI 产业格局?

本期《智者访谈》邀请到清华大学计算机系长聘教授、高性能计算研究所所长翟季冬,深入探讨大模型时代的 AI 算力优化之道。翟季冬教授指出,DeepSeek 实现百倍性价比提升的一个重要原因,是其在系统软件层面的深度创新。

「性能优化是一个无止境的过程,」翟季冬教授表示,在中国面临算力资源挑战的背景下,通过系统软件创新提升算力效能,是产业突围的关键。这不仅需要在编程语言、编译器、通信库、编程框架等多个技术层面发力,更需要建立起完整的基础软件体系。

当下,一个值得深思的现象是:尽管 AI 算力需求持续攀升,但国内众多智算中心的国产算力资源却存在闲置。供需错配的背后,暴露出基础软件体系的短板。

但困境也蕴含着重要机遇:如何打通从应用到系统软件,再到自主芯片的完整链路,探索出一条符合中国现实的发展路径?这不仅是技术创新,更是战略抉择。

在算力主导 AI 竞争力的时代,如何让每一份计算资源都能释放最大价值,这个问题本身,与答案同样重要。

视频链接:https://mp.weixin.qq.com/s/Elby5usJVFjEHU45MNDYWA

时间戳

03:35

DeepSeek 与算力需求未来趋势

06:41

算力效能评估新视角

10:26

中美硬件差异下的软件思考

14:00

为何还没 Transformer 专用芯片

17:41

万卡集群训练难点

21:01

降本增效:推理优化的关键

24:41

Infra 如何为下一代大模型做好准备

27:19

大规模异构集群的算力管理

29:42

智算供需错配:系统软件如何补位

访谈文字整理

机器之心:翟季冬教授好,欢迎做客机器之心的《智者访谈》。最近在 AI 算力市场出现了很多新的趋势。首先,大家讨论非常多的,Scaling Law 是不是真撞墙了?其次,随着 OpenAI o1/o3 模型的推出,通过增加推理计算时间也能够带来模型性能的显著提升,这也让我们重新思考,究竟要把算力用在哪里。

可以看到,如何提升算力的利用效率,成为业界越来越关注的议题。非常高兴能邀请到您,与我们一同从系统软件的角度探讨算力优化之道。

DeepSeek 的启发:性能优化永无止境

翟季冬:谢谢主持人。非常荣幸来到机器之心做交流。Dr. Ilya Sutskever 在一次论坛上表示,我们所知的 Scaling Law 已经快走到终点。我认为这个问题分几方面来看。首先,现在互联网上高质量的文本数据的确是越来越少,但多模态数据(比如图片、视频)还有很多挖掘空间,它们对未来模型训练会产生非常大的影响。

第二,以 OpenAI o1/o3 为代表的复杂推理系统,在后训练阶段使用了强化学习(RL)等技术,RL 会生成大量新的数据,这也导致对算力的需求持续增长。第三,如今训练一个基座模型,可能需要几周乃至一两个月的时间,如果有更多算力,几天就能预训练出一个好的模型,这也将极大地改变后期的生产效率。此外,对于终端的用户来说,大家对性能,包括对精度的追求实际上是无止境的。

机器之心:DeepSeek 公司最近在业界引发广泛讨论,他们以较低成本训练出了堪比国外顶尖水平的模型。从公开信息来看,您认为这里的提升主要在哪里?

翟季冬:首先是算法层次的创新。他们采用了新的 MoE 架构,使用了共享专家和大量细粒度路由专家的架构。通过将通用知识压缩到共享专家中,可以减轻路由专家的参数冗余,提高参数效率;在保持参数总量不变的前提下,划分更多的细粒度路由专家,通过灵活地组合路由专家,有助于更准确和针对性的进行知识表达。同时,通过负载均衡的算法设计,有效地缓解了传统 MoE 模型因负载不均衡带来训练效率低下的问题。

其次在系统软件层次,DeepSeek 采用了大量精细化的系统工程优化。例如,在并行策略方面,采用双向流水的并行机制,通过精细的排布,挖掘了计算和通信的重叠,有效的降低了流水并行带来的气泡影响;在计算方面,采用 FP8 等混合精度进行计算,降低计算复杂度;在通信方面,采用低精度通信策略以及 token 路由控制等机制有效降低通信开销。

上述算法和软件的创新与优化,极大地降低了模型的训练成本。DeepSeek 给我们的启示,更多在于如何在有限的算力情况下,通过算法和软件的协同创新,充分挖掘硬件的极致性能,对中国发展未来人工智能至关重要。

从 DeepSeek 的成功可以看出,在大模型领域仍然存在很多可以改进的空间。他们的创新涵盖了从算法、软件到系统架构的多个层面,为国内大模型的发展提供了很好的启发。

我是做高性能计算方向出身,我们领域一直在追求应用程序的极致性能。之前我在清华带领学生参加国际超算比赛时,每当拿到题目,我们就会不断思考:当你发现了负载的某些特点后,如何针对这些特点进行有效优化,可能会带来几十、几百,甚至上千倍的性能提升。可以说,性能优化是一个永无止境的过程。

在当前形势下,中国在算力资源方面面临很大挑战。国外像微软、X 公司等,投入了 10 万卡甚至更大的规模,在如此雄厚的算力基础上,他们可能会将更多精力放在设计更好的模型上,极致的性能优化也许并不是他们当前的重点。但当我们算力有限时,比如固定只有 1 万张加速卡,就需要思考如何更极致地利用好这些硬件,挖掘算法、系统,包括硬件等各方面协同创新的可能性。

机器之心:追求性能优化和模型创新两种发展路线是否相互冲突?它们能在同一个阶段共存吗?

翟季冬:从系统软件层面来看,它与算法发展是解耦的。换句话说,这些优化技术同样适用于算力更充足的场景,换到美国的研究环境中也可以应用,并不会阻碍上层模型的发展。

机器之心:业界似乎还没有一个客观评价算力利用效率的体系或标准。从您的角度看,我们应该如何科学、客观地评价算力的利用?

翟季冬:这是个很好的问题。现在一些科技报道中经常提到「GPU 利用率」这样的指标,但要评价一个系统是否用得好,很难用单一指标来衡量,就像评价一个人不能只看单一维度一样。

具体来说,在大模型训练时,GPU 利用率只是其中一个方面。在大型集群中,还包括网络设备、存储设备等。仅仅追求 GPU 利用率很高,而网络利用效率或内存使用率很低,这并不是最优的状态。从系统软件优化的角度,我们需要追求整体的均衡,可能通过提高网络和内存的使用率来适当降低 GPU 消耗。

评价标准也因场景而异。在训练场景中,我们更关注整个集群(包括加速卡、存储、网络、通信等)的整体利用效率。在推理场景中,终端用户更关心延迟,比如是否能在几毫秒内得到响应,除了第一个 token 的生成延迟,后续每个 token 之间的间隔时间也是重要的指标;算力提供方则更关注整体吞吐量,比如 1000 张加速卡每天能处理多少请求,是每天能响应 100 万个请求,还是 1000 万个请求。

一个经常被忽视但很重要的指标是成本,特别是每个 token 的处理成本。大家总说追求极致性能,但当我们将成本约束也纳入考虑时,对系统吞吐量和处理延迟的讨论会更有现实意义。从长远来看,显著降低推理成本对于推广 AI 应用至关重要。

中美硬件差异下的算力突围

系统软件双向适配

机器之心:由于中美之间的硬件差异,大家很关注软件栈层面是否会出现代际分叉,甚至发展出不同的科技树?

翟季冬:中国确实在系统软件方面面临着不同的思考方向。在美国和欧洲,AI 基础设施主要以 NVIDIA GPU 为主,但在中国,很难获得最先进的 NVIDIA 算力。

NVIDIA GPU 之所以受欢迎,很大程度上归功于其成熟的生态系统。我印象很深刻的是,从我读书时期开始,NVIDIA 就与清华等高校展开合作,探索如何更好地在他们的硬件上实现加速。他们现在的软件栈也是经过多年积累形成的。相比之下,中国的 AI 芯片公司大多始于最近几年,发展历程不到十年。

我们还有很长的路要走,无论是在底层编译器优化芯片算力,还是在多卡互连的高效通信协同方面。中国面临双重挑战:一方面需要补齐短板,提升芯片易用性;另一方面由于获取不到最先进的芯片制程工艺,可能会落后国外一到两代。这使得软件与硬件的协同优化在中国显得更为重要,我们需要挖掘所有可能的优化空间。

机器之心:从您的角度看,我们应该用什么样的思路来应对 NVIDIA 建立的软件生态壁垒?

翟季冬:作为后来者,我们首先要学习他们在算子库、编程语言和编译器方面的先进理念。在不违反知识产权的前提下,我们可以借鉴这些成果。但也不能完全照搬,而是要有自己的思考。例如,在工艺制程落后的情况下,我们可以在软件栈方面做些什么?针对与 NVIDIA 不同的架构特点,我们是否可以有自己的创新?

如果能够把从应用侧到系统软件,再到自主研制芯片的整条路径打通,我相信我们能找到一条适合中国现实环境的可行发展路线。

从学术角度来说,我们可以探索开发更好的领域特定编程语言,让用户编写高层代码时能自动生成更高效的实现。这里还有很多可以探索的空间,但要实现商业落地需要时间。

机器之心:说到大模型算力优化,为什么还没有芯片厂商推出 Transformer 专用芯片?您如何看待这个趋势?

翟季冬:我认为现在没有并不代表将来没有,可能有些公司正在这个方向上努力。从芯片设计到流片再到封装,整个过程成本非常高,必须要有足够大的市场空间才能支撑这种特定架构。

如果大模型最终确实会以 Transformer 架构为主,那么我们确实可以设计一款完全针对 Transformer 的专用芯片。但目前存在几个主要考虑:首先,AI 模型发展非常迅速,我们无法确定 Transformer 架构是否会一直保持主流地位,可能还会出现新的非 Transformer 架构。其次,Transformer 本身也在不断演化,比如 MoE 这样的稀疏激活模型,以及多模态 MoT(Mixture-of-Transformers)的稀疏特性,这些特性很难在芯片层面直接描述。

回顾最近这一波 AI 发展,大约从 2012 年至今,最初以卷积神经网络为主,一些芯片公司专门为卷积设计了 ASIC 芯片。但到了 2017 年后,Transformer 架构逐渐兴起,与卷积有很大的不同,导致之前针对卷积优化的 ASIC 芯片难以适应新的架构。

值得一提的是,在此过程中 NVIDIA 虽然也在其芯片架构中添加了各种新的硬件模块,但整体架构保持相对稳定,通过系统软件来适应应用的变化,比如他们的 Tensor Core 针对矩阵乘法进行优化,而不是专门为 Transformer 的某个组件(如 Attention)设计特定架构。

机器之心:NVIDIA 的做法能给我们带来什么启示?

翟季冬:从软件角度来说,最大的启示是以不变应万变。专用硬件的设计思路,本质上是把具体的算法用电路去实现,但设计的关键在于如何把这个具体的算法拆解成合适的、通用的基本硬件单元,以便各种应用都能通过这些基本单元来实现。例如,NVIDIA 的 Tensor Core 就是将各种操作都转换成矩阵乘法,这种映射方式相对更灵活。

拆解的核心在于粒度要恰到好处:粒度过大,小型应用难以有效利用硬件资源,造成浪费且性能下降;粒度过小,则会增加数据搬运和调度开销,降低整体效率,并增加硬件和软件的复杂度。这是一个需要权衡的设计选择。

机器之心:现在很多公司一方面投资现有基础设施购买各类计算卡,一方面也在与高校合作并投资创业公司,以应对非 Transformer 架构带来的挑战。从系统软件层面来看,这种布局能在多大程度上应对下一代技术的冲击?

翟季冬:系统软件的本质是将上层应用程序更好地映射到底层硬件。一方面要关注应用层面的变化,比如现在多模态模型越来越重要,我们就需要思考多模态带来的新模式和负载特征,同时要关注底层架构的演进,无论是 NVIDIA GPU 还是国产加速卡,都可能会增加新的计算单元或访存单元,我们需要思考如何更好地利用这些硬件特性。

系统软件的核心任务是密切关注上下层的变化,通过中间层的合理设计将两端匹配起来,让硬件效率发挥到极致。对于正在探索的新型模型,我们需要分析它们的负载特征,研究如何更好地映射到底层芯片以充分利用硬件资源。

从提前布局的角度来说,系统软件要做好新兴应用负载的分析。同时,当新的芯片架构出现时,系统软件也要及时做出相应的改进和适配。这种双向的适配能力,是系统软件应对技术变革的关键。

万卡集群时代的算力优化

机器之心:您参与了多个基座大模型的训练,在使用万卡级集群方面有第一手经验,能否分享一下在这种超大规模训练中遇到的主要技术挑战?

翟季冬:2021 年,我们与北京智源研究院等机构合作,使用新一代神威超算系统进行一个基座大模型的训练,可以把它理解为一个 10 万卡的集群。在这个过程中,我体会到大模型训练主要有几方面的挑战。

首先是并行策略的选择。因为模型很大,用 10 万台机器去做,就要把模型进行切分,就像把一块豆腐要切成很多块,可以切成方块,也可以切成细条,原理是一样的。要把一个大模型分到 10 万台机器上,也有很多切分方式。用术语来讲,比如说有数据并行、模型并行、流水线并行、序列并行等等,每个并行策略都有自己的优缺点。在 10 万台机器上,如何组合这些并行策略,本身就是很大的挑战。而且 10 万规模的集群,没办法像单卡那样反复测试各种策略,一定要把策略分析清楚了才去跑,因为一次的测试成本就很高,也不允许做太多次尝试。

第二个挑战是通信问题。10万台机器需要通过高速网络互连,但不同的机器组网方式不一样,网络的拓扑是不一样的。大模型训练时有很多通信函数,这些通信函数如何跟底层的网络拓扑高效映射是一大挑战。我们发现,不同的通信策略可能导致 1-2 倍的性能差异。

第三个挑战是容错机制。当机器规模增大,整个系统平均无故障时间就会非常小。基座模型训练通常需要几周到一两个月。我们必须设计轻量级的容错机制,在硬件出现故障时能够快速替换出错的卡并继续训练,同时将这个开销降得越低越好。

最后,单卡性能也至关重要。在关注万卡、10 万卡这类整体系统的同时,也要把单卡效率打得特别高,比如通过编译优化等策略,确保每张卡都能发挥出极致性能。

机器之心:在提升算力利用率方面,我们应该关注哪些点?

翟季冬:大模型的生命周期包含多个阶段,每个阶段对算力的需求都不相同。我们刚才谈了预训练,但在预训练模型完成后,还有一个很重要的阶段就是后训练(post training)。以 OpenAI o1/o3 为代表的后训练技术,为整个训练过程带来了新的挑战。

后训练包括生成阶段、推理阶段和微调阶段,每个阶段的负载特点都不同,最优的并行策略也会不同。需要注意的是,不能简单地追求每个阶段的局部最优,因为阶段之间的切换也会产生开销。我们要从整个 pipeline 的角度来考虑优化策略。后训练还面临着负载不均衡的问题,需要探索如何有效重叠不同阶段以提高资源利用率。

在微调阶段,客户往往会用自己的私有数据对基座模型进行调整。由于硬件资源可能有限,这时需要考虑一些特殊的策略,比如 offloading,也即当 GPU 内存不足时,将部分参数存储在 CPU 端。微调本身作为一个训练过程,对并行策略也有很高要求。

推理阶段的优化面临更多挑战:

  • KV Cache 管理:推理过程会产生大量中间结果(KV Cache)用于降低计算量。如何管理这些数据很关键,比如可以采用页面式管理,但页面大小是固定还是根据负载特征动态调整,都需要仔细设计。
  • 多卡协同:当模型较大时需要多 GPU 配合,比如在 8 个 GPU 上进行大模型推理,如何优化卡间并行也是一大挑战。
  • 算法优化:还可以从量化等角度进行优化,充分发挥底层算力性能。

总的来说,从预训练到后训练,再到微调和推理,每个阶段对算力的要求都不同,我们需要针对这些特点进行深入的优化。

机器之心:如果要建设百万卡集群,是选择多家厂商的卡,还是只选择少数厂商乃至单独一家的卡更好?

翟季冬:从管理和使用效能的角度来说,选择单一类型的加速卡无疑是最方便的。但实际情况往往更加复杂。比如说在美国,企业可能先购入 1000 张 A100,后来又添置 1000 张 H100。不同代际的加速卡存在性能差异,整合使用时就会带来系统优化的挑战,而且这个问题在训练和推理场景下的表现也不尽相同。

从系统软件角度看,这实际上是芯片碎片化的挑战。我目前正在负责一个项目,面向异构芯片的统一编程和编译优化。核心理念是,虽然底层使用不同的 AI 芯片,但在编程模型和编译优化层面要尽可能统一。我们希望同一套程序能在不同加速卡上都发挥出高效性能,同时降低不同加速卡间的移植开销。

很多人都说过,希望算力像水电一样成为基础设施。用电时我们并不需要关心是风力发电还是煤炭发电。要实现这个目标,实际上有很长的路要走,我们需要做好中间层的软件工作。此外,还要建立完善的算力度量标准,比如如何计算算力使用量,如何计价,这些都需要标准化。

在现阶段,我们还是需要关注底层硬件的具体情况。但未来的发展方向是,通过完善中间层的系统软件,为用户提供透明的接口。用户只需要调用简单的 API 就能方便使用各种算力资源,不必关心底层细节。这可能是一个终极的发展方向。

机器之心:那我们把时间拉近一些,未来 1-3 年内,系统软件优化方面可能会看到哪些显著趋势或变化?

翟季冬:目前我国各省市建立了许多智算中心,以国产算力为主。我们观察到一个现象是,尽管应用开发者普遍缺乏算力资源,但许多国产算力中心却存在闲置现象。用户更倾向于使用 NVIDIA 这样开箱即用的解决方案。

这种状况其实带来了重要机遇:如何将巨大的算力需求与现有的国产算力有效对接?我们的目标是让国产算力达到同样的易用性,使用户感受不到差异。这不仅能促进人工智能在中国各行各业的发展,也能带动从芯片到软件再到应用的整体发展。

为此,我们实验室孵化了一家公司「清程极智」,致力于为国产闲置算力提供更友好的接口,帮助行业用户方便地整合各类国产算力资源。

从技术层面来说,这不仅仅是优化算子库那么简单。系统软件的完整建设应该包括编程语言、编译器、通信库、并行计算、编程框架,这些方向都需要投入。就像木桶效应,任何一个短板都可能影响芯片的整体使用效果。要充分发挥国产算力的性能,我们需要在这些方向全面发力,才能真正把算力这个方向做好。

嘉宾简介

翟季冬,清华大学计算机系长聘教授,博士生导师,高性能计算研究所所长。青海大学计算机技术与应用学院院长。CCF高性能计算专委副主任、CCF杰出会员。清程极智首席科学家。

主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文 100 余篇,出版专著一部。研究成果获 IEEE TPDS 2021 最佳论文奖、IEEE CLUSTER 2021 最佳论文奖、ACM ICS 2021 最佳学生论文奖等。担任清华大学学生超算团队教练,指导的团队 15 次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS 青年科学家奖、高校计算机专业优秀教师奖励计划。国家杰出青年科学基金获得者。

ad1 webp
ad2 webp
ad1 webp
ad2 webp