新智元报道

编辑:好困 犀牛

【新智元导读】推理模型在复杂任务上表现惊艳,缺点是低下的token效率。UCSD清华等机构的研究人员发现,问题根源在于模型的「自我怀疑」!研究团队提出了Dynasor-CoT,一种无需训练、侵入性小且简单的方法。实验证明,Dynasor-CoT在保持准确性的同时,能减少高达29%的token消耗,且不增加推理延迟。

这段时间,诸如DeepSeek-R1和OpenAI o1/o3这类的CoT推理模型,在复杂任务上展现出了惊人的性能。

然而,与早期模型相比,它们的token效率却非常之低。即,需要消耗更多的token才能达到相同的准确率。

下图展示了传统模型的token效率曲线比推理模型陡峭得多。


最近,来自加州大学圣地亚哥分校、清华等机构的研究人员揪出了罪魁祸首——「自我怀疑」。


论文地址:https://arxiv.org/abs/2412.20993

项目主页:https://hao-ai-lab.github.io/blogs/dynasor-cot/

代码地址:https://github.com/hao-ai-lab/Dynasor

Demo:https://hao-ai-lab.github.io/demo/dynasor-cot

换句话说就是,模型明明早就算出正确答案,却要反复验算纠结,白白耗费海量计算资源!

以一个简单问题 (1+2i)*6-3i测试为例:传统Qwen-7B用180个token轻松解题,而升级后的Deepseek版Qwen-7B虽在第340个token就得出正确答案,却硬生生续写1000+token反复验证!

这种「学霸强迫症」,让DeepSeek等顶尖模型浪费了高达70%的算力!


为了解决模型的「自我怀疑」问题,研究团队提出了Dynasor-CoT,一种无需训练、侵入性最小且简单的方法,用于长链式推理(CoT)。

这种方法结合了基于确定性的启发式方法与「思维CT扫描术」技术,以动态确定(推理链的)终止点。在保持准确性的同时有效地截断推理链。

实现了高达29%的token减少,同时不影响准确性,也不会给关键推理路径带来额外的延迟。

目前,团队已将这款「AI话痨终结者」系统全面开源,快来看看你的AI能省多少token吧!


值得一提的是,本文的作者组USCD张昊实验室还曾经推出过诸多知名研究项目,包括如今风靡全球的大模型竞技场(LLM Arena、vLLM,Prefill-decode分离式服务架构等。

AI「思维CT扫描术」

为了系统地研究这个现象,研究人员开发了一种「思维CT扫描术」(Probe-In-The-Middle)。

通过在模型推理过程中插入特定提示(比如「啊!我悟了,答案是:」),来提取模型某一个中间思考节点的答案,从而确定到底模型最早在什么时候得到了正确答案。

就像考试时监考老师突然抽走草稿纸,逼迫AI提前交卷!

下图展示了不使用和使用「思维CT扫描术」两种方式的准确率对比分析。左边采用标准推理。右边使用「思维CT扫描术」技术提取早期答案,可以看出在50%的token减少下具有等效的准确性。

在相同的token预算下,绿色区域越早出现表示正确答案到达得越早——明显更绿的右侧面板表明模型实际上知道答案的时间比标准推理中显示的要早得多。


以AMC23数据集为例,推理模型通常在早期就得到了正确答案(中位数:830个token),但由于「自我怀疑」会继续生成不必要的token(中位数:2.7K个token)。

这种自我怀疑现象严重影响了token效率,因为模型即使内心已经对答案有一定把握,还是会继续推理。

基于信心值的早停策略,巧妙减少token消耗!

想象一下,我们给AI装了一个智能「话痨终结者」。每当AI说了一定数量的话(比如64个token),「思维CT扫描术」(probe-in-the-middle)就会悄悄启动:

  1. 首先,像医生做CT扫描一样,给AI的思维来个「断层扫描」,提取它当前的答案。

  2. 有趣的是,AI完全不知道自己被「扫描」了!它会继续自顾自地推理,继续写解题步骤。

  3. 如果AI连续N次的「CT扫描」结果都显示同一个答案,系统就会判定AI非常自信,并果断按下停止键。坚定地告诉这位同学:「你已经答对了,不用再证明了!」

Dynasor-CoT通过三种关键机制提高长CoT LLM推理中的token效率:提取答案、确定性评估和生成后验证。

下图展示了Dynasor-CoT方法。如果模型回答比较确定则退出(案例 1),遇到有犹豫含义的词汇(例如,等等)则继续生成(案例 3),如果模型推理不足够确定也继续生成(案例 2)。


中间探针

研究人员在模型生成过程中引入了名为「中间探针」(probe-in-the-middle)的战略干预。

他们在模型推理的中间阶段添加精心设计的引导,以明确地提取出模型当前的答案。

这种方法利用了他们的观察,即推理LLM通常在完成其完整的推理链之前就能达到正确答案。

当LLM已经在其内部得出结论时,这种早期提取技术显著降低了计算成本。

通过答案一致性进行确定性评估

研究人员实现了一种动态确定性评估机制,该机制定期(例如每32、64或128个标记)监控模型的输出。

在每个间隔内,探测模型以提取和存储当前答案,然后允许LLM继续其生成。重要的是,后续的生成不受探测标记的影响,从而实现答案提取和原始生成的并行执行。

当模型在多个间隔内产生一致的答案时,将其模式解释为确定性的指标,遵循certaindex方法Dynasor。这种方法为模型的确定性提供了定量度量。

AI的微表情识别术:揪出不自信的时刻!

研究人员发现,AI也有自己的「微表情」!通过仔细观察AI的语言习惯,他们找到了判断AI是否自信的妙招:

  • 当AI说出「等等」、「嗯...」这样的词时,就像人类皱眉思考或挠头的动作,说明它对自己的答案并不太有把握。

  • 这时候,即使「思维CT扫描」得到了答案,我们也要对它保持警惕,不能轻易相信一个支支吾吾的回答。

  • 这种语言习惯分析,就像是给AI装了一个「情绪探测器」,能够精准捕捉到它的不自信时刻!

总的说来,这种方法利用了模型在中间阶段得出结论的能力,也保持了针对过早或不确定响应的强大保障措施。

Certaindex:一个更野心勃勃的目标!

这套基于信心值的策略远不止于此,它还有更广阔的应用前景:

  • 它可以推广到各种高级推理算法中,比如自洽性检验(self-consistency)、蒙特卡洛树搜索(MCTS)等。

  • 就像一个通用的「自信度测量仪」,能够适应不同的思维方式。

  • 不管AI用什么方法思考,这个系统都能准确判断:「嗯,这个答案它是真的有把握。」

通过这种方式,研究人员不仅让AI变得更高效,还让它的思维过程变得更透明、更可控。并且,还能 知道什么时候该停下来,而不是无休止地解释、验证。

最重要的是,这个方法不需要重新训练模型,可以直接应用到现有的AI系统中,堪称即插即用的效率神器!

Dynasor:大模型推理的「调度大师」

简单说,Dynasor就像是大模型推理任务的「智能调度系统」:

1. 智能资源分配

  • 基于Certaindex(信心值系统)动态分配计算资源

  • 像调度员一样安排每个推理任务的优先级和资源

2. 结构化管理

  • 把复杂推理任务变成结构化的程序

  • 在应用层和系统层实现高效调度

  • 通过缓存优化提升性能

总之,它就是让AI推理既快又准的效率神器!就像给大模型装了个智能管家,让推理过程更加高效有序。

下图展示了该架构通过本地应用程序组件与服务器端系统管理之间的相互作用,实现了高效的资源分配。


实验结果:大幅提升推理效率!

研究团队在多个数学推理数据集(AIME24、AMC23和MATH500)上测试了这套系统,使用了不同规模的DeepSeek模型(7B、14B和32B)。

下图评估了不同的探测间隔(如32、64等),这些间隔通过不同颜色的线条表示,并且最大token预算为16K。

对于每个间隔,研究人员调整了早期终止参数N(所需的连续一致答案的数量),从而生成每条线上的不同点。所有配置都实现了显著的token节省,在保持与基准模型相当的准确度的同时,将token使用量减少了最多29%。

为了公平比较,适当的准确度阈值已根据模型规模进行校准——对于32B模型,使用严格的阈值标准,而对于较小的模型,则使用较低的阈值,同时在较简单的任务中设置更高的目标,以便达到更高的准确度。


对于该方法在token减少方面表现最好的10%问题,研究人员观察到AIME节省了34%的token,MATH500节省了53%。

在最优的1%问题中效果更加显著——AIME节省了53%,MATH500节省了高达81%!

这种表现显示了这种动态方法相对于固定token预算的优势,因为不同问题在达到解决方案时对token的需求有所不同。

为了验证可扩展性,研究人员将实验扩展到更大的DeepSeek-R1模型。

下图显示了Dynasor-CoT在DeepSeek-R1上和较小蒸馏模型上表现一致,实现持续的效率提升:DeepSeek-R1在AIME问题上实现了12%的token节省,在AMC问题上实现了24%,同时保持了基线准确率水平。


参考资料:

https://hao-ai-lab.github.io/blogs/

https://github.com/hao-ai-lab/Dynasor

https://hao-ai-lab.github.io/demo/dynasor-cot

ad1 webp
ad2 webp
ad1 webp
ad2 webp