谷歌重磅推出全新Scaling Law，抢救Transformer！3万亿美元AI面临岔路

新智元报道

编辑：编辑部 NJY

【新智元导读】谷歌团队发现了全新Scaling Law！新方法DiLoCo被证明更好、更快、更强，可在多个数据中心训练越来越大的LLM。

测试时计算之后，谷歌三大团队集众人之力，发现了全新的Scaling Law！

刚刚，谷歌研究员Zachary Charles宣布：「在越来越大的模型上，分布式训练取得重大突破」。

这个核心算法，便是——DiLoCo的Scaling Law。

新的训练方法无惧模型规模，未来，在「多个数据中心」训练大模型的规模不再是问题。

论文得出四大发现，DiLoCo训练方法的Scaling law，效果远超「数据并行」：

更稳健（Harder）：在不同模型规模下，DiLoCo的超参数依然保持稳定且可预测。

更优越（Better）：随着模型规模扩大，DiLoCo相较于数据并行训练的优势进一步提升。

更高效（Faster）：DiLoCo所需的带宽比数据并行训练少几个数量级。

更强大（Stronger）：DiLoCo能够容忍比数据并行训练大得多的批大小。

值得一提的是，这篇巨作集结了谷歌三大团队：谷歌Research、谷歌Search、谷歌DeepMind。

论文地址：https://arxiv.org/pdf/2503.09799

在固定计算预算下，研究人员探讨了DiLoCo在训练大模型时的Scaling law。

论文中，重点分析了算法因素（如模型副本数量、超参数设置、token预算）如何影响训练过程，并证明这些影响可通过Scaling law准确预测。

结果表明，DiLoCo在模型规模增长时，表现出稳定且可预测的扩展性。论文合著者Arthur Douillard再次强调：DiLoCo生效了！

智能的未来将是分布式的，而DiLoCo可能正是那个关键的要素

在合理调优的情况下，DiLoCo比数据并行训练更具扩展优势，即使在小规模模型上也可能优于数据并行训练。

这些发现，揭示了DiLoCo的强大优势：不仅解决了通信瓶颈，还为大规模模型训练开辟了全新的可能。

有网友惊叹地表示，「DiLoCo可能会重新定义LLM Scaling的方式！更少的带宽需求，更高的效率」。

左右滑动查看

「数据并行」训练终结？

数据并行训练在大模型上表现出色，前提是在计算资源集中分散的情况下，才能实现。

如果计算分布较广，通信就可能成为巨大的瓶颈，尤其是当模型规模增长时，问题会更加严重！

机器学习采用的解决方案，例如在联邦学习和数据中心训练中，就是让多个独立模型进行训练，并定期同步。

随着机器学习模型规模的扩大，数据并行方法固有的频繁同步需求会导致显著的性能下降，这对进一步扩展模型构成了关键挑战。

那么，如何在保持模型质量的同时，降低同步需求，以突破这一瓶颈呢？

答案或许就在，DiLoCo（Distributed Low-Communication）这一创新方法中。

论文链接：https://arxiv.org/abs/2311.08105

每个DiLoCo模型副本都会独立训练H个内部优化（inner optimization）步骤。

这些模型通过外部优化（outer optimization）步骤进行同步，通常在外部优化步骤之间引入动量机制。

在下图中，示例中共有M=4个模型副本。

DiLoCo的成功已经被反复验证。它的运作方式与联邦学习的FedOpt方法类似。

此外，研究人员也多次证明DiLoCo在大模型（LLM）训练中的卓越表现。

那么DiLoCo有什么问题？简单来说——规模。

DiLoCo与数据并行训练不同，它引入了额外的「外部」超参数，并且实际上的表现和理论上明显不同。

这正是研究scaling laws的目的！

这次研究从零开始构建了DiLoCo和数据并行训练的Scaling law，用于预测它们在大规模模型上的表现对比。

在数据并行训练中，每个训练步长都会处理一个大小为B的数据批。

在本研究中，批大小指的是批中的token数量（而不是序列数量）。

计算批梯度，并使用学习率γ进行优化。

在DiLoCo训练过程中，每个时间步t处理一个全局批大小为B的数据，并在序列级别将其均匀分配到M个DiLoCo副本中。

因此，全局批大小仍然是B，而每个DiLoCo副本的本地批大小为B/M。与数据并行训练类似，每个副本都会计算批梯度，并使用学习率γ执行一次内部优化（inner optimization）。

但与数据并行不同的是，DiLoCo每H步会执行一次「外部优化」（outer optimization），基于参数空间计算的外部梯度（outer-gradients），并使用学习率η进行更新。

一个重要的对比是数据并行vs.DiLoCo（M=1）。

虽然它们相似，但并不完全相同。

DiLoCo在M=1的情况下，仍然包含一个外部优化器（OuterOpt）步骤，因此它可以被视为Lookahead优化器的变体。

而在DiLoCo中，OuterOpt通常使用带有Nesterov动量的GD，这意味着DiLoCo（M=1）实际上是数据并行训练的一个变体，但动量操作仅每H步执行一次。

还进行了大量实验，涵盖训练过程的各个方面，全面分析了它们的扩展行为。

实验方法

大部分实验里，研究团队使用C4数据集的训练集来训练模型，评估指标用C4的验证集。

另外，还在三个下游任务上算了零样本评估指标：HellaSwag、Piqa和Arc-Easy。

模型架构：Chinchilla变体

研究团队用的是一个类似「Chinchilla」的纯解码器Transformer架构，加入了QK-LayerNorm，还使用了z-loss正则化来让训练更稳定。

他们把多个序列打包到每个批里，最大序列长度全程固定为2,048。

所有模型都是从零开始训练的，因为这次主要想研究预训练阶段的规模规律。

研究团队训练了一堆模型，调整了Transformer层数、注意力头的数量、QKV维度和前馈层的隐藏维度。

除非特别说明，他们都用Chinchilla的token预算，并且对除了最大的两个模型（4B和10B参数）外，其他模型都做了大量的超参数调整。

算法和优化器

研究团队用AdamW作为数据并行（Data-Parallel）的优化器，也是DiLoCo的内层优化器。两个算法的β1设为0.9，β2设为0.99。

训练开始有1000步的预热，然后用余弦学习率衰减。权重衰减参数λ设为T⁻¹，其中T是总训练步数（取决于批大小和token预算）。到训练结束时，学习率衰减到峰值的5%。

为了训练稳定，他们把（内层）梯度的全局ℓ2范数剪裁到1，外层梯度不剪裁。

对于DiLoCo，他们用带Nesterov动量的SGD作为外层优化器。动量设为0.9，外层学习率保持不变。

从0构建，全新Scaling Law已来

发现1：规模

DiLoCo的评估损失随着N的增加，相对于数据并行（Data-Parallel）有所改善。

Scaling law预测，当M=2时，DiLoCo在参数达到几十亿以上时，损失会比数据并行更低。这一现象在研究调优的最大模型以及4B和10B模型的训练中都得到了验证。

下图2展示了DiLoCo和Data-Parallel两种算法在不同模型规模（N）下的表现对比。

图(a)显示，随着模型规模从2^25到2^31逐渐增大，DiLoCo（分别在M=1、2、4、8时）和Data-Parallel的评估损失（EvalLoss）都在下降，但DiLoCo的损失下降得更明显，尤其是在M值较大时。

图(b)进一步展示了DiLoCo相对于Data-Parallel的评估损失的百分比差异，可以看出，随着模型规模增加，DiLoCo的损失比Data-Parallel低得越来越多，说明DiLoCo在模型规模扩大时表现更优越。

这个发现有两个独立但相关的部分：

DiLoCo(M=1)表现更好：就像上面提到的，DiLoCo在M=1时，所有模型规模的评估损失都比Data-Parallel低。而且随着模型参数规模N增加，Data-Parallel和DiLoCo(M=1)之间的差距越来越大。
DiLoCo(M≥2)的表现：在大多数模型规模下，DiLoCo在M≥2时评估损失会更高。不过，如果看DiLoCo和Data-Parallel之间的百分比差异（带正负号），会发现随着N增大，DiLoCo相对Data-Parallel的表现越来越好，甚至在M=2、N=2.4亿参数时超过了Data-Parallel。

比如，研究团队在下表4中列出了Data-Parallel和DiLoCo在不同模型规模N下的评估损失。

可以看出，不管M是多少，百分比差异都随着N增加严格减小。

这个趋势在图2中也有展示：随着N增加，DiLoCo的相对评估损失逐渐降低。

研究团队还通过用缩放法则调好的超参数，训练了40亿和100亿参数的模型来验证这一点。

虽然图2显示的是「插值」范围的结果（基于大量实验扫描），但这些发现也可以推广到外推状态，能在M=1或2时用DiLoCo训练出评估损失更低的40亿和100亿参数模型。

下表5展示了用外推超参数训练的结果，展示了在较大规模的4B和10B模型上，DiLoCo和Data-Parallel算法的评估损失对比，表明DiLoCo在更大规模下整体表现出色。

发现2：单副本DiLoCo

当副本数M=1时，DiLoCo在不同模型规模下获得的评估损失都比Data-Parallel低。

下图3展示了当副本数M=1时，DiLoCo与Data-Parallel在不同模型规模（35M、550M、1.3B、2.4B）和全局批大小（以token计，从2^16到2^20）下的评估损失和HellaSwag零样本准确率对比。

图(a)显示DiLoCo的评估损失始终低于Data-Parallel，且差距随着批大小增加而扩大；图(b)表明DiLoCo在HellaSwag零样本准确率上也优于Data-Parallel，趋势相似。

在几乎所有情况下，在M=1时，DiLoCo不仅评估损失更低，下游任务的零样本准确率也比Data-Parallel高。

而且，DiLoCo(M=1)的表现对批大小（batch size）的稳定性更强：把批大小翻倍或翻四倍，对Data-Parallel的性能影响很大，但对DiLoCo(M=1)几乎没啥影响，图3里画得很清楚。

发现3：批大小对性能的影响

DiLoCo提高了最佳批大小，而且最佳全局批大小随着副本数M的增加而变大。这意味着DiLoCo相比Data-Parallel改善了横向扩展能力。

虽然DiLoCo在批大小M>1时，挑选所有超参数中最好的实验结果，评估损失往往略逊一筹，但它在批大小方面的表现显著提升。

Data-Parallel和DiLoCo(M=1)在小批时表现都不错，但随着批大小增加，Data-Parallel的性能下降很快。

相比之下，不管批大小M是多少，DiLoCo的表现对批大小都稳定得多。

下图4展示了评估损失的例子，结果表明，对于所有M值，DiLoCo的最佳批大小都比Data-Parallel更大，且随着M的增加，DiLoCo的最佳批大小进一步增大。

例如，在550M模型中，Data-Parallel的评估损失在批大小较小时最低，而DiLoCo在批大小更大时表现更优，类似趋势在1.3B和2.4B模型中也成立。

下图5展示了在HellaSwag数据集上的零样本准确率。结果显示即使在较小的模型规模下，DiLoCo在M=2时也能在更大的全局批大小下实现更高的准确率。

例如在550M模型中，DiLoCo的准确率曲线在批大小增加时优于Data-Parallel；1.3B和2.4B模型也表现出类似趋势。

发现4：外部学习率

最佳外部学习率基本上与模型规模N无关，但会随着副本数M的变化而变化。

一个重要结果是，DiLoCo在水平扩展上更自然。在所有情况下，token预算D，只跟模型规模N有关。这意味着如果用4倍大的批大小，训练步数会减少到1/4。

对DiLoCo来说，这依然能保持不错的性能，还能一次性用更多资源，缩短总训练时间。而Data-Parallel似乎更依赖串行训练。这种训练时间的减少还因为通信量降低而加倍明显。

下图6展示了理想的训练时间（wall-clock time），模拟不同网络带宽下的情况。

可以看到，DiLoCo对较大批大小的容忍度使其能够显著更快地实现与Data-Parallel相当的性能损失，而且在低带宽设置中这种效果更为明显。

发现5：外部学习率

如下图7所示，对于足够大的模型（N≥3.35亿参数），每个M的最佳η是固定的。M越大，η似乎也越大。这跟之前联邦学习的研究一致：外层学习率应该随着客户端数量增加而增加。

实际上，外部学习率仅取决于DiLoCo模型的数量以及同步的频率。

也就是说，虽然最优的内层学习率会随模型规模N变化，但DiLoCo的最优外层学习率η不依赖N，只跟M有关。

DiLoCo同样有助于解决过度训练的问题！

过度训练可能会相当昂贵，但是增加了批大小并减少了通信量意味着，通常可以在相同的时间内用DiLoCo进行4倍的过度训练（OT），而使用数据并行训练只能进行1倍的过度训练。

论文中还有更多内容。其中包括Scaling law本身，以及甚至提供了预测最优超参数的方法。

Scaling law表明，对于参数超过20亿的模型，使用2个模型的DiLoCo优于数据并行方法

更多实验细节和内容，请参阅原文。

Chinchilla将死？AI 3万亿美元的岔路

DiLoCo使得调整超参数和训练模型变得更加简单。但问题在于，AI模型本身「换汤不换药」——还是Chinchilla那一套。

毕竟，过去的预训练Scaling Law已进入尾声，而新的AI Scaling Law与训练无关。

如今，随着新型「推理模型」的兴起，一个问题浮出水面：如果Chinchilla死了，AI未来会怎样？

大约5年前，OpenAI研究员发现，将更多的算力、数据投入到大规模训练中，可以显著提升AI模型的性能。

几年后，谷歌研究人员更进一步，通过构建名为「Chinchilla」的模型证明，增加数据量能带来更好的效果。

这种「计算+数据」的组合催生了如今的巨型模型，比如GPT-4。

论文地址：https://arxiv.org/pdf/2203.15556

然而，这种策略的成功依赖于巨大的前期投入。

海量数据被塞进复杂且耗能的预训练过程，科技大厂疯狂建造数据中心，塞满了英伟达GPU。

但问题来了：这种砸钱砸数据的模式，还能走多远？

巴克莱资本的顶级分析师Ross Sandler指出，未来可能面临两种截然不同的情景：

一是，「Chinchilla」继续主导，巨额算力和数据投入持续攀升；

二是，「停滞」替代方案，新型技术和模型以更少的资源实现更强性能。

这两种路径的资本支出差距高达3万亿美元以上，足以影响整个行业的走向。

「推理模型」崛起

推动这一潜在变革的，是「推理模型」的兴起。

OpenAI的o1、o3、DeepSeek R1、谷歌Gemini 2.0 Flash Thinking等新模型，采用了一种名为「测试时计算」（test-time compute）的技术。

这种方法将复杂查询分解为小任务，逐一处理，不再依赖长时间的预训练。

相较于传统模型，推理模型可能响应稍慢，但它们输出更准确，运行成本也更低。

更重要的是，它们摆脱了对大规模预训练的依赖。

DeepSeek R1甚至展示了一种可能：开源推理模型能在短时间内实现性能飞跃。

这意味着，AI公司可能不再需要花费18-24个月和巨资去打造下一个「巨无霸」模型。

此外，混合专家模型（MoE）也成为被广泛采用的技术，通过训练多个小型「专家」模型，让它们与大模型协同工作，只在需要时调用部分算力。

这种方式，一步降低了基础设施需求。

Chinchilla何去何从？

过去五年，Chinchilla策略推动了AI供应链的繁荣，许多公司股价因此飙升。

但如今，它的可持续性正受到质疑。

巴克莱分析师指出，「随着投入成本激增，比如一次预训练耗资100亿美元，性能增益却可能越来越小，这种模式的性价比正在下降」。

更严峻的是，训练数据可能正在枯竭。

高质量数据的供应有限，而AI对数据的「胃口」却越来越大。如果没有足够的「食物」，Chinchilla还能活多久？

甚至，业内一些大佬预测，像OpenAI这样的公司，可能会在GPT-5之后停止无休止的规模Scaling。

面对数据枯竭，AI行业将希望寄托于「合成数据」。研究者认为，这种「自给自足」的反馈循环能让模型不断自我进化，推动技术迈向新高度。

Chinchilla们本质上可以通过「自我喂养」来生存。

「如果AI行业在合成数据和递归自我改进方面取得突破，那么我们将重新走上Chinchilla scaling路径，计算需求将继续迅速上升」。

Chinchilla死了吗？这个问题，AI市场会给出最终答案。

如果推理模型、MoE技术成熟，AI可能走向轻量化，高效率的未来，数万亿美金的基础设施投资，或许不再必要。

但，如果「合成数据」让Chinchilla重焕生机，算力竞赛将卷土重来。

无论哪种未来到来，AI的演进都在重塑整个世界。

参考资料：

https://arxiv.org/pdf/2503.09799

https://x.com/MatharyCharles/status/1900593694216253827

https://www.businessinsider.com/ai-chinchilla-openai-google-anthropic-compute-demand-capex-scaling-laws-2025-3

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦