机器之心报道

编辑:杜伟

近段时间,DeepSeek R1 推理模型引爆了国内外社交媒体,让人们见识到了大语言模型类人的深度思考能力。

虽然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在数学和编程领域取得了重大进展,但在面对一些测试基准时仍然力不从心,比如国际数学奥林匹克竞赛(IMO)组合问题、抽象和推理语料库(ARC)谜题和人类的最后考试(HLE)问题。以 HLE 为例,主流的推理模型集体翻车,结果显示 DeepSeekR1、o1 的准确率都低于 10%。

如何提升推理模型在这些较难基准上的准确率呢?近日,波士顿大学、 NotBadMath.AI、谷歌等机构的研究者在最新的论文中,提出了一种在测试时结合多种模型和方法的多元推理方法。结果显示,该推理方法在验证数学和编码问题以及其他问题的拒绝采样时简单而高效。

具体来讲,研究者通过交互式定理证明器 Lean 来自动验证 IMO 问题答案的正确性,通过代码自动验证 ARC 谜题,以及通过 best-of-N 算法有效地回答 HLE 问题。



  • 论文标题:Diverse Inference and Verification for Advanced Reasoning
  • 论文地址:https://arxiv.org/pdf/2502.09955

从实验结果来看,研究者将 IMO 组合问题答案的准确率从 33.3% 提升到 77.8%将 HLE 问题的准确率从 8% 提升到 37%,并解决了 948 名人类无法攻克的 80%的 ARC 谜题和 o3 high 无法解决的 26.5 % 的 ARC 谜题

研究者表示,通过调整代理图表示和不同的提示词、代码和数据集,测试时模拟、强化学习和具有推理反馈的元学习等可以提高推理模型的泛化能力。

此外,研究者还发现了基础语言模型的第三个实证性 scaling law,即多种模型、方法的数量与可验证问题性能之间的关系,它们呈正向关系。前两个 scaling law 分别如下:

  • 模型大小、数据大小和损失之间的关系,即更多参数、训练数据和训练时的语言模型表现更好。
  • 模型性能和测试时算力之间的关系,早期棋盘游戏中验证了训练时和测试时算力之间的权衡,增加其中任何一项都会带来更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了测试时算力扩展对推理型 LLM 的助益。

方法概览

研究者在方法部分主要有以下三项成果:

一是多元推理(diverse inference)。研究者在测试时聚合了多个模型、方法和代理,而不是依赖单个模型和方法。任何一个正确的解决方案都会对 IMO 组合题和 ARC 谜题的可验证任务进行自动验证。具体如下:

  • IMO:研究者使用 8 种不同的方法,分别是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以显著提高推理模型准确率。其中将英语题目自动形式化为 Lean,从而完成了完美验证。
  • ARC:合成代码解决方案在训练示例上作为单元测试(unit test)进行验证。
  • HLE:使用 best-of-N 作为不完美验证器,随着示例增加而解决率提升。

二是测试时模拟和强化学习。研究者在推理时生成了额外的特定于问题的信息,其中:

  • IMO:将组合题转化为了可交互游戏环境,并使用组合搜索或深度强化学习来得出部分结果或边界。
  • ARC:通过合成代码来探索谜题转换,从而删除不正确的解决方案并优化候选解决方案。

另外,研究者表示,在给定相同数据集的情况下,使用训练过的验证器进行搜索往往比监督微调效果要好,这激发了强化学习微调。他们通过运行测试时模拟和强化学习来生成额外数据,从而能够正确证明 2024 IMO 组合题并求解困难的 ARC 谜题。

下图 1 展示了研究者求解 IMO 组合题所用方法的高级架构,其流程包含了几个组件,分别是编码、模拟以及深度强化学习和解码



在编码阶段,研究者通过将问题形式化为状态空间、动作空间和奖励来找到答案,然后提示 LLM 将问题转化为一个游戏环境。研究者将问题表示为 Gymnasium 开源项目中的 Python 代码,其中包括代理和策略,并使用模拟和深度强化学习来找到最优策略。他们重复此过程,为每个问题生成具有不同维的多个游戏,并为每个游戏的不同情节生成对应的数据和视频。

在解码阶段,研究者提取数据和帧并通过转换对它们进行扩充,并使用 LLM 以摘要的形式为每个序列的图像和策略解释编写文本表示。最后,研究者利用这些信息以及附录 M 和 N 中的问题陈述、答案、书籍和指南,通过上下文学习来自动形式化证明。

三是代码图的元学习。研究者使用 LLM 和其他工具来追踪 pipeline 运行,并生成超参数、提示词、代码标题和数据的 A/B 测试,并自适应地修改代理图。

实验结果

研究者使用了不同的模型和方法对 IMO 组合问题进行了广泛的评估,他们测试了来自未污染(non-contaminated)考试中的所有组合问题。

结果显示,零样本 o1 回答对了 1/9(准确率约 11%)的问题,使用 o3-mini 的最佳方法回答对了 3/9(准确率约 33.3%)的问题,而使用了 o3-mini high 的 8 种多元方法回答对了 7/9(准确率约 77.8%)的问题,并进行了自动验证。

类似地,使用 o1 的最佳方法回答对了 3/9(准确率约 33.3%)的问题,而使用了 o1 的多元方法回答对了 6/9(准确率约 66.7%)的问题,也进行了自动验证。



其次,研究者使用了 400 个 ARC 评估谜题,对 16 个模型和方法进行了广泛的评估,结果如下图 4 和图 5 所示,共有以下几项发现

  • 没有 o3,16 个多元模型和方法将模型性能从 53%提升到了 69.5%。
  • 有了 o3,16 个多元模型和方法将模型性能从 91.5% 提升到了 93.75%。
  • 16 个多元模型和方法解决了 948 名人类无法解决的 80% 的谜题。
  • 16 个多元模型和方法解决了 o3 high 失败的 26.5% 的谜题。





最后对于 HLE 问题,由于计算成本的原因,研究者随机抽取了 100 个问题进行测试。不同模型和方法的准确率如下表 1 所示,其中 o3-mini high 非多模态,取得了 13.0%的准确率;Deep Research 使用了网络搜索和代码,取得了最高 26.6%的准确率。



此外,使用 o3-mini high 对这 100 个随机采样问题进行 best-of-N 拒绝采样(N=3),所有类别的准确率为 37%,数学问题的准确率为 33.3%;使用 o1 时所有类别的准确率为 21%,数学问题的准确率为 29.6%,具体如下图 6 和图 7 所示。





更多方法细节和实验结果请参阅论文附录

ad1 webp
ad2 webp
ad1 webp
ad2 webp