出品|虎嗅ESG组

作者|陈玉立

头图|电影《黑客帝国》

本文是#ESG进步观察#系列第119篇文章

本次观察关键词:DeepSeek

去年年中,AI大模型发展风头正劲之时,谷歌一份环境报告引发媒体“担忧”——自2019年以来,其温室气体总排放量增长了48%。

不止谷歌,微软也在去年5月透露二氧化碳排放量增加了近30%,科技巨头公司碳排放增加的核心原因都被归于一点——人工智能模型、硬件和数据中心的能耗正在大幅攀升。可以说,若AI军备竞赛时代到来,人类很可能陷入一场从未预见到的能源危机。

但事情却在最近起了戏剧性变化。

近期,微软取消了威斯康星州Kenosha和乔治亚州亚特兰大两个数据中心项目的决策,涉及数百兆瓦的电力容量调整;此外,根据TD Cowen最新研究报告显示,微软已终止与多个私营数据中心运营商的租赁协议,并暂停部分国际资本支出计划。

这一系列举措不仅折射出人工智能基础设施建设领域正在发生的结构性转变,更是被市场解读为AI投资热潮降温的重要信号。TD Cowen分析师指出,微软此次战略调整的核心在于应对“供应过剩”的行业新常态。

伴随着近期AI概念股普遍回调,某种程度上凸显出资本对大模型估值的态度变化——DeepSeek这条“鲶鱼”引发的技术冲击,对大模型未来的技术演化提出了一条新的思考路径。

更少的芯片数量、更低的训练成本,DeepSeek在改变AI企业算力预期的同时,也将未来AI算力可能带来的能源消耗做了极大的削减。半开玩笑地讲,人类如果没有因AI算力的增长而陷入能源危机,DeepSeek很有可能是“首功”。


DeepSeek是如何降低能源消耗的?

灵碳智能创始人李博杰认为,DeepSeek在技术上主要通过4个方面降低了训练成本:

一是流水线并行优化(DualPipe):通过设计前向传播和反向传播的交错执行(如 1F1B 及其扩展策略),实现了计算任务与数据通信的完全重叠,从而最大化 GPU 利用率,缩短了训练过程中因等待产生的“气泡”时间。

二是冗余专家策略的负载均衡器(EPLB):在 MoE(混合专家系统)架构下,不同专家的工作负载可能严重不平衡。EPLB 通过复制繁忙专家,为部分专家分担负载,避免了部分 GPU 长时间闲置,从而更高效地利用硬件资源。

三是FP8 混合精度训练:相比传统使用 FP16/FP32 的混合精度训练,DeepSeekv3 “广泛地采用了 8 位浮点数进行训练”。这使得内存与计算资源的消耗大幅降低,不仅减少训练时所需的硬件资源,也间接降低了能耗和相关的电力成本。

四是多令牌预测(MTP):通过一次生成多个 token,改善了信息利用率,既能提高训练和推理效率,也有助于缩短整体训练时间,降低计算资源消耗。

具体到GPU耗能层面,据李博杰测算,DeepSeek预训练共耗费大约 2.66 百万GPU小时,强化学习(RL)阶段约耗费 0.5 百万 GPU 小时,合计约为3.16 百万GPU小时。

假设使用的是H800 GPU,此类数据中心级GPU的功耗通常在 500W~700W 之间,取平均值 600W 计算,即每个 GPU 小时消耗 0.6 kWh 的电能。最终总能耗≈GPU 小时数 × 平均每小时耗电,结果约为1.9 GWh电能消耗。

作为对比,我们拿GPT-4 Moe为案例计算其在GPU方面的电能消耗。据黄仁勋在GTC2024上的演讲,GPT-4 Moe使用了8000个H100 GPU进行了90天的训练,总GPU卡时为17.28百万GPU小时。而H100 GPU的设计功耗(TDP)为500-750W,取平均值600W计算,可得最终总能耗约为10.4GWh,与DeepSeek相比翻了5倍。

虎嗅ESG组曾在《AI革命,是能源的一场“灾难”》一文中指出,普通人家一年的用电量大概在1000kwh左右,这意味着DeepSeek节约出的电能足够近一万个家庭使用一年。

李博杰指出,人工智能大模型之所以如此耗能,原因是因为目前主流的LLM模型采用了基于transformer架构的深度神经网络算法,这种架构的算法通过自注意力机制处理数据,并考虑序列的不同部分或句子的整个上下文,从而生成对模型结果的预测。

“市面上先进的LLM通常包含了万亿级别的参数,参数越多,模型复杂度越高,训练时的计算量就越大。”

而DeepSeek通过优化训练模型(引入多头潜在注意力机制)加上推出新的强化学习算法GRPO等举措,在显著降低计算成本的同时,还提高了模型的训练效率,最终实现其模型训练成本只有OpenAI的1/10,使用成本只有OpenAI的1/30。

根据国际能源署的数据,2022年美国2700个数据中心消耗了全国总电力的4%以上;预计到2026年,全球数据中心的电力消耗可能会翻一番。但目前从DeepSeek引发的“降本狂潮”来看,因数据中心带来的电力消耗或许不会如此巨大。


间接能源减耗空间巨大

与技术创新带来的训练能耗大大减少相比,因DeepSeek的技术创新间接带来的减碳空间同样巨大。

从市场竞争的角度看,面对DeepSeek技术创新带来的“降本”压力,不少AI公司都在加速淘汰低效模型架构,最为典型的是meta。

meta首席执行官扎克伯格将2025年称为“AI的决定性一年”,并期望meta AI能成为服务超过十亿人的领先助手。但面对DeepSeek带来的新挑战,meta已陷入恐慌模式。

《The Information》在年初曾报道,meta的AI团队领导层包括AI基础设施总监马修·奥尔德姆,最近都担心DeepSeek的出现意味着meta在AI竞赛中正在落后。他们尤其害怕meta在本季度发布的下一代旗舰AI Llama的表现将不如DeepSeek。据《The Information》引用的两位meta员工称,meta已成立了多个“作战室”或专业研究小组,以剖析DeepSeek并利用其见解改进Llama。

至于马斯克的Grok 3,在堆了20万张H100显卡后,其评分测试确实比OpenAI、DeepSeek的得分更高。但如此大量的算力带来的是更大的能源消耗,据财经大V淘沙博士测算,Grok3单次训练的碳排放量相当于4.6万辆汽车的年排放量,单位能耗效率上DeepSeekR1比Grok3低67%。

就算马斯克再有钱,也不可能放着捷径不走而继续“铺张浪费”。微软转向支持DeepSeek、meta开始研究DeepSeek算法都足以说明,DeepSeek正在颠覆AI巨头们堆算力、堆芯片这一“大力出奇迹”的模式,走向精细化运营。

除了市场竞争角度外,从供应链上下游角度分析,DeepSeek也给能源行业“好好上了一课”。在DeepSeek出圈之后,除夕夜前一天能源供应商Constellation Energy股价下跌21%,电力企业Vistra下挫28%。

“DeepSeek重置了中美在人工智能领域的竞争环境,更重要的是,它从根本上颠覆了能源领域。”国际税务与投资中心能源、增长与安全项目助理主任何伟龙(Wesley Alexander Hill)在发表于《福布斯》杂志的署名文章中表示,全球许多国家制定能源政策所基于的基本假设,即人工智能必会带动需求不断增长,已经不复存在。

最后,在对传统能源企业的赋能方面,DeepSeek也能有令人惊异的表现。例如对于化工企业而言,通过实时分析生产数据(如反应参数、设备状态),可动态调整工艺条件。有垂类自媒体指出,在甲醇精馏装置中,通过模型优化工艺参数后能实现蒸汽消耗降低15%,产品收率提升8,提升设备综合效率(OEE)达12%。

而中国石化也在近期对外反馈,中石化DeepSeek-R1模型已经在进口GPU和国产GPU平台上完成验证测试,推理计算效率提升近一倍。未来,DeepSeek可以应用在中石化的地震资料处理、油藏开发优化、化工产品研发等核心领域。

总结而言,DeepSeek已通过技术颠覆、成本重构以及开源生态,在训练环节和企业级应用中产生了明确的节能案例,未来节能减碳的空间仍然巨大。


更广泛的社会效益

分析到这里,DeepSeek已经在ESG中的“E(环境)”上有着不俗表现,但在“S(社会)”和“G(公司治理)”上,DeepSeek同样有着极佳的案例应用。

在“G(公司治理)”层面,《中国经营报》在近期发表文章指出,随着微信、百度等科技巨头接入DeepSeek,同时各地政务系统纷纷上线基于全栈国产化技术的DeepSeek-R1智能模型,导致算力需求急剧增长。随着DeepSeek在多领域大展拳脚,未来社会对算力的需求会持续增长。

而在“S(社会)”层面,据澎湃新闻报道,广西玉林市兴业县已有乡镇将DeepSeek用于防返贫监测,“通过DeepSeek对全镇脱贫户数据进行动态分析,精准识别潜在返贫风险家庭,并自动生成帮扶建议,分析效率较传统方式提升50%。”

如此看下来,DeepSeek在ESG各维度的潜在助推价值无疑还具备相当大的可开发空间,无疑是“大隐隐于市”的存在。

而当下的人工智能或许仅仅是DeepSeek的一面,其效率至上所体现出的工具理性,以及将环境友好、社会公平、公司治理纳入技术演进的内在逻辑,将为人类推动社会的可持续发展带去更多惊喜。

ad1 webp
ad2 webp
ad1 webp
ad2 webp