还记得 OpenAI 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在 2024 年神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)上的“预训练即将终结”发言吗?他之所以这样说是因为:互联网上所有有用数据都将被用来训练大模型。

这个过程也被称为预训练,包括 ChatGPT 等在内的大模型均要经过这一步骤才能“出炉”。

不过,由于现有互联网数据或将被消耗殆尽,因此伊利亚表示这个时代“无疑将结束”。

但是,大多数业界人士并未因此感到恐慌,这是为什么?答案可以先从最近火到大洋彼岸的中国大模型 DeepSeek V3 说起。


(来源:X)

曾在谷歌旗下公司 DeepMind 实习过的美国加州大学伯克利分校博士生查理·斯内尔(Charlie Snell)非常关注 DeepSeek V3,他不仅在 X 上转发了 DeepSeek V3 的相关内容,还专门问了问 OpenAI 内部人士对于 DeepSeek V3 的看法。

OpenAI 内部人士告诉斯内尔,DeepSeek 团队可能是第一个复现 OpenAI o1 的团队,但是 OpenAI 的人也不知道 DeepSeek 是如何实现快速复现的。

美国科技博客 TechCrunch 的一份报告也显示,DeepSeek 可能使用了 OpenAI o1 的输出来训练自己的 AI 模型,更重要的是 DeepSeek V3 在行业基准测试中表现也十分出色。

这说明,如果 OpenAI o1 模型的输出优于该公司的 GPT-4 模型,那么理论上 o1 的输出内容就能被用于训练新的大模型。

比如说:假设 o1 在特定的 AI 基准上获得 90% 的分数,如果将这些答案输入 GPT-4,那么它的分数也能达到 90%。

假如你有大量的提示词,那么就能从 o1 中获得一堆数据,从而创建大量新的训练示例(数据),并能基于此预训练一个新模型,或者继续训练 GPT-4 从而让它变得更好。

因此,斯内尔怀疑 AI 推理模型的输出已经被用于训练新模型,并认为这些合成数据很有可能比互联网上的已有数据更好。


图 | 查理·斯内尔(Charlie Snell)

事实上,2024 年 8 月,当斯内尔还在 DeepMind 实习的时候,他和合作者发了一篇题为《扩展模型测试时间计算比扩展模型参数更有效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)的论文,在这篇论文中斯内尔已经针对“预训练即将终结”的问题给出了解决方案。

研究中,斯内尔等人揭示了测试时间计算(test-time compute)这一策略的好处。测试时间计算策略,是一种通过峰值数据墙(peak-data wall)来让大模型得到持续迭代的潜在方法。

该技术能将查询分割成更小的任务,将每个任务都变成能被大模型处理的新提示。

其中,每一步都需要运行一个新请求,在 AI 领域这被称为推理阶段。在一系列的推理中,问题的每个部分都能得到解决。在没有得到正确内容或没有得到更好内容之前,模型不会进入下一阶段。

研究期间,斯内尔和合作者将额外测试时间计算(additional test-time compute)的输出用于提炼基础模型,从而让模型实现自我改进,借此发现新模型在数学任务和具有明确答案的任务中,表现得比之前的顶级大模型还要好。

因此,假如将这些更高质量的输出作为新的训练数据,就能让已有大模型生成更好的结果,或者直接打造出更好的大模型。

而他当初之所以和合作者开展这项研究,也是发现数据供应有限这一问题阻碍了预训练的继续扩展。

他表示,如果能让大模型使用额外的推理时间计算(extra inference-time compute)并提高其输出,那么这就是让它生成更好的合成数据的一种方式。这就等于开创了一个寻找训练数据的新来源,或能解决当前的大模型预训练数据瓶颈问题。


(来源:arXiv)

那么,斯内尔具体是如何开展这项研究的?研究中,斯内尔等人针对扩展测试时间计算的不同方法进行了系统分析,旨在进一步提高扩展测试时间计算的效果。

在扩展测试时间计算这一方法中,最简单的、也是此前被研究得最深入的方法便是“N 选最佳采样”,即从基础大模型中“并行”抽样 N 个输出,并根据学习到的验证器或奖励模型,选择得分最高的输出。

然而,这种方法并不是使用测试时间计算来改进大模型的唯一方法。为了了解扩展测试时间计算的好处,斯内尔等人使用专门微调的 PaLM-2 模型针对难度较高的 MATH 基准开展实验。

期间他和合作者用到了如下两个方法:第一个方法是修改不正确的答案,第二个方法是使用基于过程的奖励模型来验证答案中各个步骤的正确性。

通过这两种方法,斯内尔等人发现特定测试时间计算策略的有效性在很大程度上取决于以下两点:其一,取决于手头特定问题的性质;其二,取决于所使用的基础大模型。

针对测试时间计算扩展策略(test-time compute scaling strategy)加以改进之后,斯内尔等人希望了解测试时间计算到底可以在多大程度上替代额外的预训练。

于是,他和合作者在具有额外测试时间计算的较小模型和预训练 14 倍大的模型之间进行了浮点运算数匹配比较。

结果发现:无论是在简单问题、中等难度问题还是在高难问题上,额外的测试时间计算策略都比扩展预训练方法更加可取。

这说明,与其只是关注扩展预训练,在某些情况下使用较少的计算针对小模型开展预训练会更有效,并且可以使用测试时间计算策略来提高模型输出。

也就是说,扩展测试时间计算已经比扩展预训练更为可取,并且随着测试时间策略的成熟,只会取得更多的改进。

从长远来看,这暗示着未来在预训练期间花费更少的浮点运算数(算力),而在推理中花费更多的浮点运算数(算力)。


(来源:arXiv)

无独有偶,就连微软 CEO 萨蒂亚·纳德拉(Satya Nadella)也表达了类似的观点,他在近期一则视频播客中将推理时间计算策略描述为“另一个扩展定律(scaling law)”。

纳德拉认为这是一种提高大模型能力的好方法:当进行预训练的时候,进行测试时间采样之后,就能创建可以重新用于预训练的 tokens,从而能够创建更强大的模型,进而运行推理。

毫无疑问,2025 年,这种方法将接受更多考验,至于结果如何目前还需要从更多大模型身上加以验证。

参考资料:

https://www.businessinsider.com/ai-peak-data-google-deepmind-researchers-solution-test-time-compute-2025-1

https://medium.com/@EleventhHourEnthusiast/scaling-llm-test-time-compute-optimally-can-be-more-effective-than-scaling-model-parameters-19a0c9fb7c44

https://arxiv.org/pdf/2408.03314

运营/排版:何晨龙

ad1 webp
ad2 webp
ad1 webp
ad2 webp