新智元报道

编辑:桃子 好困

【新智元导读】老黄在GTC 2025大会上,再次亮出了英伟达未来GPU路线图。随着推理token的暴增,AI计算需要全新的范式,下一代BlackWell Ultra、Vera Rubin就是最强的回应。

黄氏计算法则,几乎每年一更。

今年GTC 2025大会上,黄仁勋两个多小时演讲中,又向世界带来了最新的计算法则——

现在,GPU数量按照每个「封装」内的GPU芯片数量来计算,而不是以「封装」数量计算。

这种全新的计算法则,将从英伟达下一代GPU Rubin系列开始应用。

在SemiAnalysis独家报道中,就英伟达GPU和系统路线图、最新Blackwell Ultra 300、26年Vera Rubin、从芯片到系统再到软件的全新推理优化等方面进行了详细分析。


高级分析师指出,过去6个月里,模型的进化超过了之前六个月的总和。

而且,这种趋势仍将持续,因为三个Scaling Law正在叠加并协同作用:预训练Scaling、后训练Scaling、推理时Scaling。

恰恰,今年GTC大会全面聚焦的是全新Scaling范式。


推理Token爆发增长

一直以来,Claude模型以其强大的编程能力,得到开发者青睐,尤其是Claude 3.7在软件工程方面展现出惊人的性能。

另一方面,Deepseek V3出世表明,上一代模型的能力成本正暴跌,促进了更广泛的应用。

OpenAI最新实验模型o1、o3用时证明,更长的推理时间和搜索能带来更好的答案。就像预训练Scaling的早期阶段一样,为这些模型增加更多后训练计算能力似乎没有上限。

面对这一系列新事物,老黄给出最有力的回答。

他表示,「从GPT开始,到如今的推理AI,它不再是仅仅预测下一个token,而是生成100多倍的token」。

为了支持更多模型训练部署,英伟达推出了「AI工厂的操作系统」Dynamo,使得Blackwell推理性能相较Hopper暴涨40倍。

不仅如此,他们正致力于将推理成本效率提升35倍,以支持更多模型的训练和部署。

老黄的口头禅也从以往「买越多,省越多」,变成了「省越多,买越多」。(the more you save, the more you buy.


英伟达在硬件和软件方面的发展路线图,着实带来了显著的推理效率提升。

这为LLM经济高效部署,以及其他变革性企业应用开启了全新机遇——这正是杰文斯悖论(Jevons’ paradox)的典型案例。

用老黄的话来说,「买越多,赚越多」。(the more you buy, the more you make)。

不过,市场对此却表示担忧。

他们的关注点在于类DeepSeek这样的软件优化技术和英伟达推动的硬件性能提升,正带来过度的成本节省,这可能导致AI硬件需求下降,市场将出现token供过于求的现象。

诚然,价格会影响需求,但随着智能成本的降低,智能能力的边界不断突破,需求也随之增长。

目前的AI能力,仍受限于推理成本。而且,AI对我们生活的实际影响尚处于萌芽阶段。

有趣的是,随着成本下降,总体使用量反而会出现悖论性增长。

人们对token通缩的担忧,就像当年讨论光纤泡沫时期只关注每个数据包的互联网连接成本下降,却忽视了网站和互联网应用最终将如何改变我们的生活、社会和经济。

这里有个关键区别:带宽需求是有限的,而智能需求则会随着能力的显著提升和成本的下降,无限增长。

英伟达提供的数据印证了Jevons’ paradox。当前的模型已经需要超100万亿个token,而推理模型更需要20倍的token用量和150倍的计算资源。

测试阶段的计算每次查询需要数十万个token,且每月查询量高达数亿次。

在后训练scaling阶段,每个模型需要处理数万亿个token,同时存在数十万个接受后训练的模型。

更重要的是,Agentic AI的出现意味着多个模型将协同合作,共同攻克越来越具有挑战性的问题。

黄氏计算法则,每年一更

每年,老黄都会向业界引入全新的计算法则。

黄氏计算法则一直以其独特性闻名,而今年情况更加特别,SemiAnalysis观察到了第三条新的计算法则。

第一条黄氏计算法则涉及浮点运算性能(FLOPs)的标称方式。

英伟达采用2:4稀疏计算方式(这种方式在实际应用中几乎未被采用)而非实际使用的密集计算来标示性能。

比如,H100的FP16实际计算能力为989.4 TFLOPs,但官方数据却标示为 1979.81 TFLOPs。

第二条计算法则关于带宽的计算方式。

NVLink5的带宽被标示为1.8TB/s,这是将900GB/s的发送带宽和900GB/s的接收带宽相加得出的结果。

虽然产品规格表采用这种计算方式,但网络行业的通行做法是仅标示单向带宽。

最新出现的第三条计算法则与GPU数量有关。

正如开篇所言,GPU数量现在按照每个封装内的GPU芯片数量来计数,而不是按照封装数量。

这种新的命名方式将从Rubin产品开始实施。

比如,第一代Vera Rubin机架将被命名为NVL144,尽管它在系统架构上与使用相同Oberon机架和72个GPU封装的GB200 NVL72十分相似。


这种全新的计数方式无疑会给业界带来理解上的困扰,需要不断解释说明,但这就是我们必须适应的「黄氏世界」。

接下来,一起看看英伟达的产品路线图。


Blackwell Ultra B300

Blackwell Ultra 300(简称B300)的预览版已经发布,与SemiAnalysis在去年12月分享的详情保持一致。

主要规格如下:

GB300不会以独立显卡形式销售,而是将作为配备Grace CPU的可插拔SXM模块中的B300 GPU推出,同时还提供可插拔BGA封装版本。

性能方面,B300的FP4浮点运算密度,较B200同等产品提升超过50%。内存容量提升至每个封装288GB(采用8堆叠12层HBM3E高带宽显存),带宽维持在8TB/s。

这一性能提升是通过减少部分(而非全部)FP64 ALU,并替换为FP4和FP6运算单元实现的。

双精度运算主要用于HPC和超级计算领域,而非AI工作负载。尽管这让HPC界感到失望,但从商业角度看,英伟达更注重发展规模更大的AI市场。

B300 HGX版本现已更名为B300 NVL16。

该产品将采用此前称为「B300A」的Blackwell单GPU版本,现已更名为B300。

这相当于双芯片B300的一半配置,由于标准版B300在单个封装中缺少连接两个GPU芯片的高速D2D接口,可能会带来额外的通信开销。

B300 NVL16将取代现有的B200 HGX架构,在主板上配置16个封装和GPU芯片。具体实现方式是,在每个SXM模块上安装2个单芯片封装(总共8个这样的模块)。

英伟达选择这种方案而非继续使用8个双芯片B300的原因尚不明确;高级分析师推测,采用更小尺寸的CoWoS封装模块和基板所带来的良率提升可能是主要考虑因素。

值得注意的是,封装技术将采用CoWoS-L而非CoWoS-S,这一决策意义重大。

此前选择单芯片B300A是出于CoWoS-S的成熟度和产能考虑。此次转向CoWoS-L表明该技术已经从最初的不稳定状态快速发展为成熟可靠的解决方案,良率也已达到稳定水平。

这16个GPU将通过NVLink协议进行通信,与B200 HGX的设计类似,两组SXM模块之间将配置两个NVSwitch 5.0专用芯片(ASIC)。

另有一个新的变化是,不同于先前几代HGX产品,B300 NVL16将不再使用Astera Labs的信号重定时器。不过,部分超大规模云计算服务商可能会选择改用PCIe交换机。

B300的另一个重要特性是,将搭载全新的CX-8 NIC,该接口卡提供4条200Gbps通道,使InfiniBand总吞吐量达到800Gbps,较当前Blackwell采用的CX-7网络接口卡的网络速度翻了一番。

Vera Rubin:3nm制程,首个全自研CPU

Rubin将在台积电3nm工艺上,采用两个掩模尺寸的计算芯片。

这些计算芯片两侧将各配备一个I/O(输入/输出)芯片,整合所有NVLink、PCIe和NVLink C2C IP的SerDes,这样可以为主计算芯片释放更多空间用于核心计算功能。

Rubin将提供惊人的50 PFLOPs的密集FP4计算能力,相比B300提升了超过3倍。英伟达通过以下几个关键方向实现了这一突破:

  1. 首先,如前所述,独立的I/O芯片设计释放了大约20-30%的芯片面积,这些空间可用于增加流式多处理器和张量核心的数量。

  2. 其次,Rubin将采用3nm制程工艺,可选用定制的英伟达3NP或标准N3P工艺。从Blackwell世代的4NP工艺升级到3NP,逻辑密度获得显著提升,但SRAM的尺寸几乎保持不变。

  3. 第三,Rubin的热设计功耗(TDP)将提升至约1800瓦,这可能支持更高的运行频率。

  4. 最后是架构层面的scaling。英伟达在每代产品中都采用更大规模的张量核心脉动阵列。

据分析,这一规模从Hopper架构的32×32,增加到了Blackwell的64×64,在Rubin中可能会进一步扩大到128×128。

更大的脉动阵列能够提供更好的数据复用效率和更低的控制复杂度,在面积利用率和功耗效率方面都具有优势。

虽然编程难度随之增加,这也是英伟达没有像谷歌TPU那样采用256×256规模的原因之一。

同时,这种设计对制造良率也会产生影响。值得注意的是,英伟达的掩模尺寸单片芯片具有很高的参数良率,这得益于其架构中内置的冗余设计和可修复机制,包含众多小型计算单元。

当发现缺陷的计算单元时,可以将其禁用,从而保证产品良率。


这与谷歌TPU采用的设计策略不同,后者使用数量较少但规模更大的张量核心,因此无法像英伟达的设计那样灵活处理逻辑单元缺陷。

Rubin将延续GB200/300 NVL72所采用的Oberon机架架构。它将搭配Vera CPU,采用3nm制程的Grace 继任者。

值得注意的是,Vera将采用英伟达完全自主设计的处理器核心,这与主要依赖Arm公司Neoverse CSS核心的Grace处理器有所不同。

此外,英伟达还开发了独特的互联架构,使单个CPU核心能够根据需要访问更大的内存带宽,这一点是AMD和英特尔CPU目前面临的重大技术挑战。

这就引出了新的命名方式。尽管新机架实际只配备72个GPU封装,包含144个计算芯片,即72个封装×每封装2个计算芯片,但将被命名为VR200 NVL144。

不得不说,英伟达是如此富有创新精神,连GPU的计数方式都在改变!

在内存方面,英伟达HBM容量将维持在288GB,但升级到了HBM4技术:采用8堆12层设计,保持每层24GB的密度。

升级到HBM4带来了显著的带宽提升,总带宽达到13TB/s,这主要得益于总线宽度翻倍至2048位,以及达到当前JEDEC标准上限的6.5Gbps引脚速度。

互联技术方面,新产品将采用第六代NVLink,通过翻倍通道数实现速度翻倍,达到3.6TB/s(双向)。英伟达将继续使用 224G 串并转换器(SerDes)技术。

关于Oberon机架,它将继续使用铜质背板,但分析师预计随着每个GPU通道数的翻倍,连接电缆的数量也会相应翻倍。

在交换技术方面,NVSwitch专用芯片的总带宽也将实现翻倍,同样是通过增加通道数来实现的。


Rubin Ultra性能惊人,HBM达1024GB

Rubin Ultra将带来革命性的性能提升。

英伟达在这款产品中将单个封装HBM堆叠数量直接从8个提升至16个。其架构采用4个掩模尺寸的GPU芯片呈线性排列,两端各配备一个I/O芯片。

得益于计算面积的翻倍,密集FP4浮点运算性能提升至100 PFLOPs。HBM容量达到惊人的1024GB,超过标准版Rubin的3.5倍。

这不仅体现在堆叠数量的翻倍,还包括密度和层数的提升。为实现单封装1TB内存容量,产品将采用16个HBM4E堆叠,每个堆叠包含16层、每层32Gb的DRAM核心芯片。

根据SemiAnalysis分析,这种封装设计将在基板上采用双中介层方案,以避免使用单个超大尺寸中介层(接近8个掩模尺寸)。

中间的两个GPU芯片将通过D2D接口的超薄I/O芯片实现通信,信号传输通过基板完成。

这种设计需要使用超大型ABF基板,其尺寸将突破当前JEDEC封装标准的限制(长宽均为120毫米)。

在内存系统方面,整体配备365TB快速内存/二级LPDDR内存。其中,每个Vera CPU配备1.2TB LPDDR,72个CPU总计提供86TB容量,剩余容量由每个GPU封装配备的2TB LPDDR来实现。

这体现了自主研发的HBM基础芯片功能:通过在基础芯片上集成LPDDR内存控制器来支持额外的二级内存,这些内存以LPCAMM模块形式布置在电路板上的封装周边。这是对Vera CPU自带二级内存的重要补充。

同时,这也标志着创新的Kyber机架架构的首次亮相。



全新Kyber机架:4个机柜,144块GPU

Kyber机架架构是此次发布的重要创新之一。

英伟达通过创新性地将机架旋转90度来提升部署密度。考虑到NVL576配置(144个GPU封装),这一设计在大规模集群部署方面实现了显著的密度提升。


接下来,详细对比Oberon和Kyber两种机架架构的主要区别。

1. 计算单元设计:计算托盘采用90度旋转设计,以卡匣形式安装,显著提升机架密度。

2. 机架结构:每个机架配备4个机柜,每个机柜包含两层共18个计算卡匣。

3. NVL576配置:

  • 每个计算卡匣装配一个R300 GPU 和一个Vera CPU

  • 每个机柜总计36个R300 GPU和36个Vera CPU

  • 整体NVLink网络规模达到144个GPU(合计576个计算芯片)

4. 互联方案:采用PCB板背板替代传统的铜缆背板,用于实现机架内GPU与NVSwitch间的互联。这一改变主要是为了解决在更紧凑空间内布线的挑战。


有趣的是,供应链情报显示,可能存在VR300 NVL 152版本(配备288个GPU封装)的Kyber机架变体。

这一数字可以从GTC主题演讲中展示的晶圆图片得到证实,其中标红显示了288个GPU封装。

SemiAnalysis推测这可能是一款正在开发中的产品型号,旨在将机架密度NVLink网络规模从GTC 2025展示的NVL576(144个GPU封装)提升一倍,达到NVL 1152(288个封装)的规模。


另一个重要进展是第七代NVSwitch的推出。这是NVSwitch首次在平台周期中期进行升级。

新款交换芯片提供更高的聚合带宽和端口数,支持单个网络域内扩展至576个GPU芯片(144个封装)。

不过,网络拓扑可能不再采用全连接无阻塞的单层多平面优化架构,而是改用具有一定超额认购比的多平面优化双层网络拓扑,甚至可能采用非Clos架构的创新拓扑设计。

Blackwell Ultra重叠计算,降低延迟

各种注意力机制变体(包括flash-attention、MLA、MQA和GQA)都需要进行矩阵乘法(matmuls)和 softmax函数计算(包括行方向归约和逐元素指数函数)。

其中矩阵乘法又称为GEMM,或通用矩阵乘法,专门用于处理神经网络计算中的矩阵乘法运算。

在GPU架构中,GEMM运算由张量核心执行。虽然张量核心的性能在每代产品中都有显著提升,但负责逐元素指数计算(如softmax)的多功能单元(MUFU)的性能提升相对较小。

在采用bf16(bfloat16)格式的Hopper架构中,注意力层的softmax计算需要消耗GEMM运算50%的计算周期。

这迫使内核工程师必须通过重叠计算来「掩盖」softmax 的延迟,这大大增加了内核编程的难度。


在采用FP8格式的Hopper架构中,注意力层的softmax计算与GEMM运算消耗相同的计算周期。

这意味着,如果不进行任何重叠计算,注意力层的计算时间将翻倍:需要1536个周期用于矩阵乘法计算,再需要1536个周期进行softmax计算。

这就是重叠计算发挥作用的地方。由于softmax和GEMM运算需要相同的周期数,内核工程师需要优化实现完美的重叠计算。

然而,完美的重叠在实际中是不可能实现的,根据Amdahl定律,这将导致硬件性能损失。

以上描述的挑战主要存在于Hopper GPU架构中,并且这个问题在第一代Blackwell中仍然存在。英伟达通过推出Blackwell Ultra来解决这个问题,他们重新设计了SM并增加了新的指令集来改进性能。

在Blackwell Ultra中,用于计算注意力机制softmax部分的MUFU单元性能较标准Blackwell提升了2.5 倍。这大大降低了对完美重叠softma和 GEMM计算的要求。

借助MUFU的2.5倍性能提升,CUDA开发人员在实现重叠计算时有了更大的灵活性,同时不会影响注意力内核的性能。

在这种情况下,英伟达全新的推理栈和Dynamo优化引擎就能派上用场。


推理栈与Dynamo优化引擎

在2023 GTC大会上,英伟达展示了GB200 NVL72凭借其72个GPU的大规模scaling能力,在FP8精度下实现了比H200高15倍的推理吞吐量。

而今年,英伟达的创新步伐不减。他们正通过硬件和软件双重突破,在多个维度推动推理性能的提升。

新推出的Blackwell Ultra GB300 NVL72较GB200 NVL72在FP4密集计算方面提供了50%的性能提升,同时HBM容量也提升了50%。

这两项提升都将直接促进推理吞吐量的增长。

此外,产品路线图中还包括Rubin世代多项网络速度的升级,这些改进也将为推理吞吐量带来实质性提升。

在硬件层面,下一个重大突破将来自scaling网络规模的提升:从Rubin的144个GPU芯片scaling到Rubin Ultra的576个GPU芯片。但这仅是硬件创新的一部分。

在软件方面,英伟达发布了Nvidia Dynamo——这是一个致力于简化推理部署和扩展的开放式AI引擎技术栈。

它有望超越现有的VLLM和SGLang解决方案,不仅提供了VLLM所不具备的多项功能,还实现了更高的性能。

结合硬件层面的创新,Dynamo将进一步推动吞吐量与交互性能力的提升,尤其在高交互性应用场景中可以实现更高的吞吐量。


Dynamo为现有推理加速技术栈引入了以下几项关键创新功能:

1. 智能路由(Smart Router)

2. GPU任务规划器(GPU Planner)

3. 增强型NCCL集合通信框架(Improved NCCL Collective)

4. NIXL(NVIDIA Inference Transfer Engine)

5. NVMe KV-Cach智能卸载系统


智能路由

智能路由管理系统在多GPU推理部署环境中,可以智能地将输入序列中的每个token精确分配至负责预填充和解码任务的GPU。

在预填充阶段,系统确保输入token均匀分布到执行预填充任务的各个 GPU,从而避免在专家模块上出现性能瓶颈。

同样,在解码阶段,系统着重确保序列长度和请求在执行解码的各个GPU之间实现最优分配和负载均衡。

对于那些访问频率较高的专家模块,GPU任务规划器还可以创建额外的副本以维持整体负载平衡。

此外,该路由系统还能在服务于同一模型的多个副本之间实现负载均衡,这是当前主流推理引擎(如vLLM等)所不具备的重要特性。



GPU任务规划器

GPU任务规划器是一个智能化的资源调度系统,可以自动管理预填充和解码节点的动态扩缩。

该系统能够根据全天负载的自然波动情况,灵活调整计算节点数量。在MoE中,规划器可以在预填充和解码两类节点上实现多个专家模块之间的负载均衡。

当某些专家模块负载较高时,规划器会自动配置额外的GPU资源提供计算支持。

此外,系统还能根据实时需求在预填充和解码节点之间进行动态资源重分配,从而最大化资源利用效率。

该系统的一个重要特性是支持动态调整解码和预填充任务的GPU分配比例。

这项功能在深度研究等特定场景中特别有价值:由于这类应用需要处理海量上下文信息,但实际生成的内容相对较少,因此需要分配更多资源用于预填充处理而非解码任务。



增强型NCCL集合通信框架

英伟达在其集合通信库(NCCL)中引入了一组全新的低延迟通信算法。这些算法可以将小规模消息传输的延迟降低至原来的1/4,从而显著提升整体推理性能和吞吐量。

在今年的GTC大会上,Sylvain的技术演讲深入介绍了这些创新特性,重点阐述了新开发的one-shot和two-shot全规约算法,这些算法是性能提升的核心所在。

值得注意的是,AMD的RCCL库本质上是NVIDIA NCCL的一个分支复制版本。

因此,Sylvain主导的NCCL架构重构不仅进一步巩固了CUDA生态系统的技术优势,还迫使AMD团队不得不投入数千工程师小时来将英伟达的重构更新同步到RCCL。在AMD忙于同步代码变更的同时,英伟达则可以继续专注于推进集合通信软件栈和算法的创新发展。



NIXL

为了实现预填充节点和解码节点之间的高效数据传输,需要采用低延迟、高带宽的通信传输库。

NIXL采用了创新的InfiniBand GPU异步初始化(IBGDA)技术。在当前的NCCL架构中,控制流需要通过CPU代理线程进行处理,而数据流可以直接传输到NIC,无需经过CPU缓冲区。

而采用IBGDA技术后,控制流和数据流都能够绕过CPU,实现从GPU到网络接口卡的直接传输。

此外,NIXL还通过抽象化简化了各种存储和内存设备之间的数据传输复杂度,包括简化CXL、本地NVMe 、远程NVMe 、CPU内存、远程 GPU内存和本地GPU内存。



NVMe KV-Cache智能卸载系统

KV缓存智能卸载管理系统采用创新方式,将用户历史对话产生的键值缓存保存在NVMe存储设备中,而不是直接废弃,从而显著提升了整体预填充效率。


在用户与LLM进行多轮对话时,模型需要将对话历史中的问题和回答作为上下文输入进行处理。

在传统实现中,推理系统会丢弃用于生成早期对话的键值缓存,这导致系统在处理后续对话时需要重新计算这些缓存内容,造成重复计算。

而采用NVMe KV缓存卸载技术后,当用户暂时离开对话时,系统会将键值缓存临时保存到NVMe存储系统中。

当用户返回并继续对话时,系统可以快速从NVMe存储中恢复这些缓存数据,避免了重复计算的开销。

这项创新带来两个重要优势:

  1. 提升资源利用效率:释放预填充节点的处理能力,支持更高的并发量,或降低所需的预填充部署规模

  2. 优化用户体验:由于直接检索缓存比重新计算更快,显著减少了首个token的生成延迟


根据DeepSeek在GitHub上发布的第六天研发记录显示,其磁盘KV缓存的命中率达到了56.3%,这一数据表明其预填充部署效率获得了显著提升。

实践表明,在用户进行多轮对话场景中,此类部署的典型KV缓存命中率通常在50-60%之间。

虽然部署NVMe存储解决方案需要一定成本投入,存在一个效益平衡点:对于较短的对话,直接重新计算比重新加载更经济高效;但在长对话场景下,该方案可以带来巨大的性能收益。

对于持续关注DeepSeek开源周的开发者来说,上述技术都不会陌生。

在英伟达完善Dynamo技术文档的同时,上述内容为开发者提供了快速了解这些技术的绝佳渠道。

这些创新功能的集成带来了全方位的推理性能提升。英伟达还特别介绍了Dynamo在现有H100节点上部署后带来的性能改进。

从本质上说,Dynamo实现了对DeepSeek创新技术的民主化,让整个开发社区都能够共享开源模型技术的最新成果。这意味着不仅是那些拥有强大推理部署工程团队的顶级AI实验室,所有开发者都能够部署高效的推理系统。

最后,由于Dynamo在分布式推理和专家并行计算方面具有广泛的适用性,它在独立复制和高交互性部署场景中表现尤为出色。

当然,要充分发挥Dynamo的性能优势并实现显著改进,必须具备多节点的硬件基础设施。


AI总拥有成本暴降99.97%

在结束Blackwell介绍后,老黄通过一个引人注目的说法强调了技术创新的影响力——这些创新使他成为了「降价推动者」。

具体而言,Blackwell相较于上一代Hopper架构,实现了高达68倍的性能提升,使总成本降低了87%。

而下一代Rubin架构的性能预计将比Hopper提升900倍,预计可使成本降低99.97%。

显然,英伟达正在保持高速的技术创新步伐。正如老黄所说,「一旦Blackwell开始规模化出货,Hopper即使免费提供也将无人问津」。

长期以来,SemiAnalysis持续建议生态系统合作伙伴优先考虑部署B200和GB200 NVL72等新一代系统,而非采购H100或H200。

事实上,H100租赁价格预测模型正是基于老黄所阐述的这一原理。

高级分析师综合考虑了未来市场装机量预测、集群总拥有成本以及下一代芯片性能等因素,构建了完整的价格预测曲线。

该预测框架迄今表现出色:他们于2024年4月首次向客户发布的H100租赁价格预测模型,从2024年初至今的预测准确率高达98%。


首个光学封装CPO,功耗节省12%

在主题演讲中,英伟达发布了其首个用于扩展型交换机的同封装光学解决方案。

这项技术将传统的光学收发器替换为外部激光源(ELS),并将光学引擎(OE)直接集成在芯片硅片旁边,实现数据通信。

在新架构中,光纤电缆不再连接传统收发器端口,而是直接插入交换机上与光学引擎相连的专用端口。

CPO技术带来的主要优势是显著降低功耗,这源于多个方面:

  1. 交换机本身不再需要数字信号处理器(DSP)

  2. 可以使用更低功率的激光光源

  3. 虽然使用线性可插拔光学(LPO)收发器也能实现部分节能,但CPO独特的优势在于支持更大的交换机基数,使网络层级从三层简化为两层

  4. 减少网络层级不仅消除了一整层交换设备,还带来了可观的成本和能耗节省

根据SemiAnalysis分析,在部署400,000个GB200 NVL72设备的场景中,从传统的基于DSP收发器的三层网络迁移到基于CPO的两层网络,可以实现高达12%的集群总功耗节省,将收发器功耗占比从计算资源的10%降低到仅1%。


英伟达本次发布了多款采用CPO技术的交换机产品:

  • Quantum X-800 3400 CPO版本(原型于2024年GTC发布)

    • 144个800 Gbps端口

    • 总吞吐量:115Tbps

    • 配置:144个MPO端口 + 18个ELS

    • 预计2025年下半年推出

  • Spectrum-X以太网CPO交换机

    • 512个800 Gbps端口

    • 支持高速大基数配置,实现快速扁平化网络拓扑

    • 预计2026年下半年推出

虽然此次发布已经展现出突破性的技术创新,但高级分析师认为这仅是英伟达在CPO领域的起步。

从长远来看,CPO 技术在扩展网络中可能带来更大的价值:它有潜力大幅提升GPU的网络基数和总带宽,实现更高效的扁平化扩展网络架构,突破当前576个GPU的规模限制。

英伟达稳坐王座,正重塑计算成本格局

The Information一篇文章称,亚马逊将Trainium芯片的价格定在H100的25%。


与此同时,老黄会上表示「当 Blackwell大规模量产后,就算免费送H100也没人要」。

高级分析师认为,后一种说法极具深意。

技术继续驱动着总拥有成本,在我们所见的各个领域(可能除了TPU),都能看到竞争对手在复制英伟达的技术路线图。与此同时,老黄正在推动技术发展的边界。

新架构、机架结构、算法改进和CPO技术,每一项都体现了英伟达与竞争对手的技术差异。

英伟达目前在几乎所有领域都处于领先地位,当竞争对手追赶上来时,他们就会在另一个进步方向上推进。

随着英伟达保持年度更新节奏,SemiAnalysis预计这种趋势将会持续。

虽然有人说ASIC是计算的未来,但从CPU时代就看到,一个快速改进的通用平台是很难被超越的。

英伟达正在用GPU重新创造这个平台,高级分析师预计他们将继续引领行业发展。

想要追赶这位「营收终结者」可不容易。

参考资料:

https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/

ad1 webp
ad2 webp
ad1 webp
ad2 webp