CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

AI话痨终结者！UCSD清华提出「思维扫描术」Dynasor-CoT，推理巨省token

2025-03-06 11:27:59

新智元报道

编辑：好困犀牛

【新智元导读】推理模型在复杂任务上表现惊艳，缺点是低下的token效率。UCSD清华等机构的研究人员发现，问题根源在于模型的「自我怀疑」！研究团队提出了Dynasor-CoT，一种无需训练、侵入性小且简单的方法。实验证明，Dynasor-CoT在保持准确性的同时，能减少高达29%的token消耗，且不增加推理延迟。

这段时间，诸如DeepSeek-R1和OpenAI o1/o3这类的CoT推理模型，在复杂任务上展现出了惊人的性能。

然而，与早期模型相比，它们的token效率却非常之低。即，需要消耗更多的token才能达到相同的准确率。

下图展示了传统模型的token效率曲线比推理模型陡峭得多。

最近，来自加州大学圣地亚哥分校、清华等机构的研究人员揪出了罪魁祸首——「自我怀疑」。

论文地址：https://arxiv.org/abs/2412.20993

项目主页：https://hao-ai-lab.github.io/blogs/dynasor-cot/

代码地址：https://github.com/hao-ai-lab/Dynasor

Demo：https://hao-ai-lab.github.io/demo/dynasor-cot

换句话说就是，模型明明早就算出正确答案，却要反复验算纠结，白白耗费海量计算资源！

以一个简单问题 (1+2i)*6-3i测试为例：传统Qwen-7B用180个token轻松解题，而升级后的Deepseek版Qwen-7B虽在第340个token就得出正确答案，却硬生生续写1000+token反复验证！

这种「学霸强迫症」，让DeepSeek等顶尖模型浪费了高达70%的算力！

为了解决模型的「自我怀疑」问题，研究团队提出了Dynasor-CoT，一种无需训练、侵入性最小且简单的方法，用于长链式推理（CoT）。

这种方法结合了基于确定性的启发式方法与「思维CT扫描术」技术，以动态确定（推理链的）终止点。在保持准确性的同时有效地截断推理链。

实现了高达29%的token减少，同时不影响准确性，也不会给关键推理路径带来额外的延迟。

目前，团队已将这款「AI话痨终结者」系统全面开源，快来看看你的AI能省多少token吧！

值得一提的是，本文的作者组USCD张昊实验室还曾经推出过诸多知名研究项目，包括如今风靡全球的大模型竞技场（LLM Arena、vLLM，Prefill-decode分离式服务架构等。

AI「思维CT扫描术」

为了系统地研究这个现象，研究人员开发了一种「思维CT扫描术」（Probe-In-The-Middle）。

通过在模型推理过程中插入特定提示（比如「啊！我悟了，答案是：」），来提取模型某一个中间思考节点的答案，从而确定到底模型最早在什么时候得到了正确答案。

就像考试时监考老师突然抽走草稿纸，逼迫AI提前交卷！

下图展示了不使用和使用「思维CT扫描术」两种方式的准确率对比分析。左边采用标准推理。右边使用「思维CT扫描术」技术提取早期答案，可以看出在50%的token减少下具有等效的准确性。

在相同的token预算下，绿色区域越早出现表示正确答案到达得越早——明显更绿的右侧面板表明模型实际上知道答案的时间比标准推理中显示的要早得多。

以AMC23数据集为例，推理模型通常在早期就得到了正确答案（中位数：830个token），但由于「自我怀疑」会继续生成不必要的token（中位数：2.7K个token）。

这种自我怀疑现象严重影响了token效率，因为模型即使内心已经对答案有一定把握，还是会继续推理。

基于信心值的早停策略，巧妙减少token消耗！

想象一下，我们给AI装了一个智能「话痨终结者」。每当AI说了一定数量的话（比如64个token），「思维CT扫描术」（probe-in-the-middle）就会悄悄启动：

首先，像医生做CT扫描一样，给AI的思维来个「断层扫描」，提取它当前的答案。
有趣的是，AI完全不知道自己被「扫描」了！它会继续自顾自地推理，继续写解题步骤。
如果AI连续N次的「CT扫描」结果都显示同一个答案，系统就会判定AI非常自信，并果断按下停止键。坚定地告诉这位同学：「你已经答对了，不用再证明了！」

Dynasor-CoT通过三种关键机制提高长CoT LLM推理中的token效率：提取答案、确定性评估和生成后验证。

下图展示了Dynasor-CoT方法。如果模型回答比较确定则退出（案例 1），遇到有犹豫含义的词汇（例如，等等）则继续生成（案例 3），如果模型推理不足够确定也继续生成（案例 2）。

中间探针

研究人员在模型生成过程中引入了名为「中间探针」（probe-in-the-middle）的战略干预。

他们在模型推理的中间阶段添加精心设计的引导，以明确地提取出模型当前的答案。

这种方法利用了他们的观察，即推理LLM通常在完成其完整的推理链之前就能达到正确答案。

当LLM已经在其内部得出结论时，这种早期提取技术显著降低了计算成本。

通过答案一致性进行确定性评估

研究人员实现了一种动态确定性评估机制，该机制定期（例如每32、64或128个标记）监控模型的输出。

在每个间隔内，探测模型以提取和存储当前答案，然后允许LLM继续其生成。重要的是，后续的生成不受探测标记的影响，从而实现答案提取和原始生成的并行执行。

当模型在多个间隔内产生一致的答案时，将其模式解释为确定性的指标，遵循certaindex方法Dynasor。这种方法为模型的确定性提供了定量度量。

AI的微表情识别术：揪出不自信的时刻！

研究人员发现，AI也有自己的「微表情」！通过仔细观察AI的语言习惯，他们找到了判断AI是否自信的妙招：

当AI说出「等等」、「嗯...」这样的词时，就像人类皱眉思考或挠头的动作，说明它对自己的答案并不太有把握。
这时候，即使「思维CT扫描」得到了答案，我们也要对它保持警惕，不能轻易相信一个支支吾吾的回答。
这种语言习惯分析，就像是给AI装了一个「情绪探测器」，能够精准捕捉到它的不自信时刻！

总的说来，这种方法利用了模型在中间阶段得出结论的能力，也保持了针对过早或不确定响应的强大保障措施。

Certaindex：一个更野心勃勃的目标！

这套基于信心值的策略远不止于此，它还有更广阔的应用前景：

它可以推广到各种高级推理算法中，比如自洽性检验（self-consistency）、蒙特卡洛树搜索（MCTS）等。
就像一个通用的「自信度测量仪」，能够适应不同的思维方式。
不管AI用什么方法思考，这个系统都能准确判断：「嗯，这个答案它是真的有把握。」

通过这种方式，研究人员不仅让AI变得更高效，还让它的思维过程变得更透明、更可控。并且，还能知道什么时候该停下来，而不是无休止地解释、验证。

最重要的是，这个方法不需要重新训练模型，可以直接应用到现有的AI系统中，堪称即插即用的效率神器！

Dynasor：大模型推理的「调度大师」

简单说，Dynasor就像是大模型推理任务的「智能调度系统」：

1. 智能资源分配

基于Certaindex（信心值系统）动态分配计算资源
像调度员一样安排每个推理任务的优先级和资源

2. 结构化管理

把复杂推理任务变成结构化的程序
在应用层和系统层实现高效调度
通过缓存优化提升性能

总之，它就是让AI推理既快又准的效率神器！就像给大模型装了个智能管家，让推理过程更加高效有序。

下图展示了该架构通过本地应用程序组件与服务器端系统管理之间的相互作用，实现了高效的资源分配。

实验结果：大幅提升推理效率！

研究团队在多个数学推理数据集（AIME24、AMC23和MATH500）上测试了这套系统，使用了不同规模的DeepSeek模型（7B、14B和32B）。

下图评估了不同的探测间隔（如32、64等），这些间隔通过不同颜色的线条表示，并且最大token预算为16K。

对于每个间隔，研究人员调整了早期终止参数N（所需的连续一致答案的数量），从而生成每条线上的不同点。所有配置都实现了显著的token节省，在保持与基准模型相当的准确度的同时，将token使用量减少了最多29%。

为了公平比较，适当的准确度阈值已根据模型规模进行校准——对于32B模型，使用严格的阈值标准，而对于较小的模型，则使用较低的阈值，同时在较简单的任务中设置更高的目标，以便达到更高的准确度。

对于该方法在token减少方面表现最好的10%问题，研究人员观察到AIME节省了34%的token，MATH500节省了53%。

在最优的1%问题中效果更加显著——AIME节省了53%，MATH500节省了高达81%！

这种表现显示了这种动态方法相对于固定token预算的优势，因为不同问题在达到解决方案时对token的需求有所不同。

为了验证可扩展性，研究人员将实验扩展到更大的DeepSeek-R1模型。

下图显示了Dynasor-CoT在DeepSeek-R1上和较小蒸馏模型上表现一致，实现持续的效率提升：DeepSeek-R1在AIME问题上实现了12%的token节省，在AMC问题上实现了24%，同时保持了基线准确率水平。

参考资料：

https://hao-ai-lab.github.io/blogs/

https://github.com/hao-ai-lab/Dynasor

https://hao-ai-lab.github.io/demo/dynasor-cot

05年清华女学霸“枪夫案”：趁丈夫熟睡后爆头，和尸体同吃住7天

05年清华女学霸“枪夫案”：趁丈夫熟睡后爆头，和尸体同吃住7天

娜哒莎和安德烈 2025-03-05 13:21:19

神奇的脚踝终结者！迪亚斯“崴脚”式晃倒吉梅内斯，给予马竞致命一击！

神奇的脚踝终结者！迪亚斯“崴脚”式晃倒吉梅内斯，给予马竞致命一击！

咪咕体育 2025-03-05 18:06:46

这推理简直无敌

华仔追剧 2025-03-04 08:49:29

阿里32B新模型比肩满血DeepSeek-R1！苹果Mac本地可跑，网友已玩疯

阿里32B新模型比肩满血DeepSeek-R1！苹果Mac本地可跑，网友已玩疯

智东西 2025-03-06 10:30:24

一乞丐要进清华，门卫死活不让，校长见后大惊：快进办公室！

一乞丐要进清华，门卫死活不让，校长见后大惊：快进办公室！

老豪科普君 2025-03-06 04:15:27

37岁时成清华最年轻教授，颜宁院士：只要把眼前的事情做到最好

37岁时成清华最年轻教授，颜宁院士：只要把眼前的事情做到最好

中国财富网 2025-03-02 23:40:29

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

全国政协委员郁瑞芬：建议取消强制统一招牌政策，保留城市烟火气

全国政协委员郁瑞芬：建议取消强制统一招牌政策，保留城市烟火气

新民晚报 2025-03-06 09:09:07

你觉得这个推理有漏洞吗

嗷嗷爱影视 2025-03-05 07:59:33

这个突然被全世界关注的中国姑娘，一出手就解决百年未解难题！

这个突然被全世界关注的中国姑娘，一出手就解决百年未解难题！

观景说史 2025-03-05 21:40:11

饿了么2026届春招启动：技术岗位占比超八成，AI算法岗位激增

饿了么2026届春招启动：技术岗位占比超八成，AI算法岗位激增

芥末堆看教育 2025-03-06 15:48:14

可行吗？委员建议扩大老年人医保覆盖范围，清华学者这样说｜宅男财经

可行吗？委员建议扩大老年人医保覆盖范围，清华学者这样说｜宅男财经

中新经纬 2025-03-03 18:15:19

阿里和蔚来重金押注，深圳机器人创企半年融了5亿

阿里和蔚来重金押注，深圳机器人创企半年融了5亿

智东西 2025-03-06 11:55:22

阿加莎与午夜谋杀案凶手就在你眼前！你能看出来是谁吗？推理

阿加莎与午夜谋杀案凶手就在你眼前！你能看出来是谁吗？推理

老Biu 2025-03-06 10:27:19

清华团队突破算力难题：4090显卡跑“满血版”DeepSeek-R1

清华团队突破算力难题：4090显卡跑“满血版”DeepSeek-R1

每日经济新闻 2025-02-15 22:40:54

清华大学毕业也被裁员！

浑竹萱 2025-03-05 06:35:49

果然清华学子的担心一点不多余，李炮网红终结者称号彻底坐实了！

果然清华学子的担心一点不多余，李炮网红终结者称号彻底坐实了！

暴走哥观点 2025-03-04 10:31:23

高考625分放弃清华，义无反顾做一件事，让全国人民记住

高考625分放弃清华，义无反顾做一件事，让全国人民记住

人类文史馆 2025-03-05 12:32:00

全球麻将冠军赛激战10小时，9北大2清华学子联手捧杯

全球麻将冠军赛激战10小时，9北大2清华学子联手捧杯

江西都市现场 2025-03-06 11:18:23

去完清华再赴中国科大，“人民城市首提地”全国聚才未完待续

去完清华再赴中国科大，“人民城市首提地”全国聚才未完待续

澎湃新闻 2025-03-06 13:34:28

清华、交大突袭扩招！成都考生如何抢占先机？

清华、交大突袭扩招！成都考生如何抢占先机？

创作者_1494406553502 2025-03-06 17:17:47

清华大学社会学系的严飞老师观察到，这十年来，学生们越来越卷，一个个都成为了卷王，年轻人不再有培养兴趣的好奇心，离创作和生活越来越远

清华大学社会学系的严飞老师观察到，这十年来，学生们越来越卷，一个个都成为了卷王，年轻人不再有培养兴趣的好奇心，离创作和生活越来越远

新周刊 2025-01-09 21:55:12

从邓正红软实力思想看俄罗斯在复杂地缘格局中强化能源的多维策略

从邓正红软实力思想看俄罗斯在复杂地缘格局中强化能源的多维策略

邓正红软实力 2025-03-05 22:14:43

现在轮到美俄不能上桌了欧洲自行提出涉乌安全策略

现在轮到美俄不能上桌了欧洲自行提出涉乌安全策略

洪超飞军事 2025-03-03 21:20:36

循序渐进，完美曲线在望，快速实现目标

循序渐进，完美曲线在望，快速实现目标

光旭教练 2025-03-02 12:00:00

中国对美精准反制，此次反制有何特点？采取哪些策略？

中国对美精准反制，此次反制有何特点？采取哪些策略？

主持人老崔 2025-03-05 18:01:31

腾讯图生视频全面开源，更懂物理规律，一手实测来了

腾讯图生视频全面开源，更懂物理规律，一手实测来了

量子位 2025-03-06 16:59:37

安徽91年女子当上岳母她有6个娃和出嫁的大女儿合影像姊妹

安徽91年女子当上岳母她有6个娃和出嫁的大女儿合影像姊妹

奇闻吉 2025-03-06 08:11:15

翘臀女神的私藏秘诀，轻松告别平凡，塑造完美蜂蜜曲线

翘臀女神的私藏秘诀，轻松告别平凡，塑造完美蜂蜜曲线

光旭教练 2025-03-04 18:00:00

斗地主高手课堂：记牌与调整出牌策略

斗地主高手课堂：记牌与调整出牌策略

欢欢斗地主 2025-03-02 02:23:02

智源开源多模态向量模型BGE-VL：多模态检索新突破

智源开源多模态向量模型BGE-VL：多模态检索新突破

机器之心Pro 2025-03-06 15:41:56

图灵奖颁给强化学习师徒，一造船改行写代码，一个痛批AI投身AGI

图灵奖颁给强化学习师徒，一造船改行写代码，一个痛批AI投身AGI

量子位 2025-03-06 15:42:05

开启空间智能问答新时代：Spatial-RAG框架来了

开启空间智能问答新时代：Spatial-RAG框架来了

机器之心Pro 2025-03-06 11:11:59

钛媒体科股早知道：华为称国内AI大模型Token所带来的流量增长了33倍

钛媒体科股早知道：华为称国内AI大模型Token所带来的流量增长了33倍

钛媒体APP 2025-03-06 08:01:21

宇树科技G1机器人展示武打动作：算法升级任意动作任意学

宇树科技G1机器人展示武打动作：算法升级任意动作任意学

财联社 2025-02-25 23:59:43

“日薪”过万元，宇树机器人二手租赁火爆：人形机器人都在为谁打工？

“日薪”过万元，宇树机器人二手租赁火爆：人形机器人都在为谁打工？

上观新闻 2025-03-06 09:45:09

月薪14万的博士级Agent要来了！OpenAI新计划曝光

月薪14万的博士级Agent要来了！OpenAI新计划曝光

量子位 2025-03-06 16:53:52

阿里推理模型一战封神！32B硬刚671B DeepSeek，仅1/10成本

阿里推理模型一战封神！32B硬刚671B DeepSeek，仅1/10成本

量子位 2025-03-06 13:25:54

高分推理悬疑美剧法律与秩序

情感大剧根据地 2025-03-03 12:52:01

阿加莎笔下的第一个案子！大侦探波洛的首次登场！推理

阿加莎笔下的第一个案子！大侦探波洛的首次登场！推理

老Biu 2025-03-06 11:08:34