CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

Search版o1：推理过程会主动查资料，整体性能优于人类专家

2025-01-18 12:36:46

衡宇白小交发自凹非寺
量子位 | 公众号 QbitAI

一个新框架，让Qwen版o1成绩暴涨：

在博士级别的科学问答、数学、代码能力的11项评测中，能力显著提升，拿下10个第一！

这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。

项目团队成员发现，o1和o1类模型在推理过程中表现突出，但却存在“知识不足”的明显缺陷——

推理步骤太长/模型知识不足时，推理过程就很容易卡壳，导致推理链中的错误传递。而其中任何知识误差都可能破坏整个推理链，最终对答案的正确性造成影响。

好着急，在线等，怎么办？

Search-o1的解题思路是：暂停推理，去搜索查找缺少的知识/资料，然后再回来继续推理。

就像咱人类思考不明白，就去查查资料，然后就想明白了似的。

研究者在初步实验中发现，类o1推理模型在处理复杂问题时，平均每个推理过程中会出现超过30次的不确定词汇，be like“或许”“可能”等。

这不仅增加了推理的复杂性，还使得手动验证推理过程变得更加困难。因此，如何在推理过程中自动补充所需知识，成为提升大型推理模型可信度的关键。

针对于此，而Search-o1的解决办法是这样的：

结合RAG和用于精炼检索文档的Reason-in-Documents模块增强框架，将Agentic搜索工作流整合到推理过程中，旨在通过自主知识检索，提升大型推理模型的可靠性和适用性。

如此一来，推理模型在遇到不确定的知识点时，就能都发挥主观能动性板去检索外部知识，同时保持整个过程的连贯性，让自己的推理能力更进一步。

研究团队做了广泛的测试后发现，在科学、数学和编码等复杂推理任务，以及六个开放领域QA基准测试中，Search-o1的表现杠杠的。

目前项目已开源，抱抱脸和GitHub可自取。按惯例，本文文末有指路直通车。

（特别注明：Search-o1框架使用的基础模型是开源的QwQ-32B-Preview）

Search-o1新框架

其实自从o1问世后，原生推理“在遇到知识缺口时易出错”这一问题就已经被摆到台前。

已经有很多团队来尝试解决上述问题，比如将策略和奖励模型与蒙特卡洛树搜索相结合（但这并没有将推理内化到模型中）；或者在训练过程中将故意错误纳入推理路径，以部分内化这些能力；也有研究者选择蒸馏训练数据。

然而，这些方法受到对静态参数化模型的依赖的限制，当内部知识不足时，这些模型无法利用外部世界的知识。

后来，又有研究团队提出利用RAG，在推理模型中引入检索机制，来解决生成模型中静态参数的限制，允许访问外部知识来解决更复杂的问题。

当出现不确定性时（例如化合物的结构），这种方法会生成有针对性的搜索查询（例如，“反式肉桂醛的结构”）；但是，检索到的文档通常包含冗长且不相关的信息，可能会破坏推理流程并损害连贯性。

因此，团队提出Search-o1的核心动机，是通过自主检索来增强具有类o1的推理模型。

Search-o1将推理模型的推理过程，和两个核心组件集成在一起：

Reason-in-Documents模块
Agentic RAG机制

Reason-in-Documents模块

先来说说Reason-in-Documents模块。

在Search-o1框架中，当 agentic RAG机制检索到的外部知识文档可能冗长且包含冗余信息，这些内容直接输入给推理模型，可能会干扰接下来的推理。

于是团队就提出了Reason-in-Documents，这个模块是独立于主推理链的。

它的作用是基于当前搜索查询、先前推理步骤和检索文档，先分析文档生成中间推理序列，再生成与当前推理步骤高度相关的精炼知识，并整合到推理链。

按照规定的输出格式，若文档提供了有用信息，则以 “Final Information [Helpful information]” 的形式输出精炼后的知识。

若未找到有用信息，则输出 “Final Information No helpful information found.”。

以此来确保推理过程简洁且专注，以及推理过程的连贯性和逻辑一致性。

Agentic RAG机制

再来说说Agentic RAG机制。

Search-o1让模型能够在推理过程中，自主决定该在什么时候检索外部知识。

单个问题推理时，对于每个问题，Search-o1会先初始化推理序列q。

由于推理模型M生成推理链R，这个过程可能会生成封装在特殊符号 <|begin_search_query|> 和 <|end_search_query|> 中的搜索查询。

当检测到 <|end_search_query|> 符号后，会提取相应的搜索查询qsearch，触发检索函数Search以获取相关的外部文档D。

接着把外部文档交由Reason-in-Documents模块处理，然后把结果整合回推理链。

而批量推理时，Search-o1会对这批问题创建推理序列集，并行生成tokens，检索和精炼文档后，更新推理链，提高系统处理多输入的吞吐量。

上述的所有过程都能反复进行，确保模型在整个推理过程中，都能获得所需的外部知识支持。

实验设置与结果

为了验证Search-o1的有效性，研究人员进行了广泛的实验，评估任务包括以下两类：

第一种是复杂推理任务。

包括PhD级别的科学问答（GPQA）、数学（MATH500、AMC2023、AIME2024）、代码（LiveCodeBench）等。

Table 1数据显示，在复杂推理任务中，所有的11个测试集上，Search-o1在其中10个任务上，都优于原生推理和传统RAG方法。

仅有一项——LiveCodeBench之easy的成绩57.7。

这个成绩在Qwen2.5-Coder-32B和QwQ-32B上的表现低于原生推理，在RAG-Qwen2.5-32B、RAgent-QwQ-32B的比凹陷低于传统RAG方法。

多提一嘴，项目论文中，研究团队还展示了Search-o1与人类专家的比较。

研究者将Search-o1的性能和GPQA扩展集中各个领域的人类专家进行了比较人类，下面的Table 2展示的是专家在物理、化学、生物等各个学科的人类专家成绩。

结果显示，Search-o1在整体性能（57.9）、物理学（68.7）和生物学（69.5）方面都优于人类专家。

不过在化学子领域落后于化学家，Search-o1是40.7，人类专家是72.6。

第二种是开放域问答基准，包括：

单跳QA，如自然问题（NQ）、TriviaQA等。
多跳QA，如HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle等。

Table 3数据显示，Search-o1在多跳QA任务表现尤为突出，平均准确率提升了近30%，优于所有基线模型。

不过相比较而言，Search-o1在单跳任务上的成绩提升不显著。

研究人员在最后表示：

Reason-in-Documents模块 + Agentic RAG机制，通过有效解决模型本身知识不足的问题，增强了推理模型的可信度和实用性。
在复杂问题解决场景中，Search-o1为更值得信赖和更有效的智能系统铺平了道路

目前外网冲浪了一下，网友们表示对这个工作还是非常肯定的。

尤其是对它“模拟人类认知过程”和“增强推理模型推理能力”这俩方面。

作者团队

Search-o1的通讯作者是人大高瓴人工智能学院的教授窦志成。

他从南开大学博士毕业后，先加入了MSRA担任研究员，2014年9月份加入中国人民大学，并于2018年8月破格晋升教授。

其余的作者包括Xiaoxi Li，Guanting Dong， Jiajie Jin，Yuyao Zhang，Yujia Zhou，Yutao Zhu， Peitian Zhang。

其中，Yujia Zhou是团队中唯一一个来自清华的同学（其余都来自人大）。

Zhou目前在清华大学任博士后研究员，与清华大学科研院院长、计算机科学与技术系教授刘奕群合作。

这位同学在人大取得博士学位，导师正是窦志成。

arXiv：https://arxiv.org/abs/2501.05366
GitHub：https://github.com/sunnynexus/Search-o1
抱抱脸：https://huggingface.co/papers/2501.05366

参考链接：
[1]https://x.com/rohanpaul_ai/status/1880173989143921058
[2]https://www.cs.tsinghua.edu.cn/info/1121/3557.htm
[3]https://www.zhouyujia.cn/

数学体育老师教的，这脑子是真不管用

数学体育老师教的，这脑子是真不管用

吾生意难平 2025-01-17 22:02:12

352小升初真题：长方形面积是16cm²，求阴影部分面积

352小升初真题：长方形面积是16cm²，求阴影部分面积

我服子佩 2025-01-17 21:28:59

女子一回到家就崩溃大哭上学时数学都没及过格的同学竟然一直赢她

女子一回到家就崩溃大哭上学时数学都没及过格的同学竟然一直赢她

资讯正当午 2025-01-17 21:32:46

公理与逻辑只能解决部分智能问题

公理与逻辑只能解决部分智能问题

白驹谈人机 2025-01-18 00:08:04

华罗庚数学竞赛题：m+n+mn=54，求m+n，学霸方法绝了

华罗庚数学竞赛题：m+n+mn=54，求m+n，学霸方法绝了

大力小学数学 2025-01-16 08:55:00

学霸与学渣的数学较量，一个运算对答案错，一个运算错答案对！

学霸与学渣的数学较量，一个运算对答案错，一个运算错答案对！

爆笑趣世界 2025-01-14 09:02:47

用数学书学英语，你怎么想的啊

鬼叔看剧 2025-01-16 20:40:39

326三年级数学数字找规律：难住了985大学生家长，小学题都这么难

326三年级数学数字找规律：难住了985大学生家长，小学题都这么难

我服子佩 2025-01-16 17:20:12

水獭生孩子太少了，结果不停“偷孩子”，数学是体育老师教的

水獭生孩子太少了，结果不停“偷孩子”，数学是体育老师教的

辣辣动物 2025-01-17 11:06:07

科学都无法解释的世界十大未解之谜

科学都无法解释的世界十大未解之谜

摸金秘史 2025-01-17 11:21:11

数学是靠天赋的

呆萌爱追剧 2025-01-17 09:09:37

这道题很多大学生也错了，到底亏多少钱？#数学思维训练技巧

这道题很多大学生也错了，到底亏多少钱？#数学思维训练技巧

美丽娱乐妹 2025-01-14 10:03:38

真是套路满满啊，这道数学里面的坑可真深

真是套路满满啊，这道数学里面的坑可真深

公考客栈店小二 2025-01-16 20:24:37

人去世后会去到哪里？从科学的角度看待死亡，你愿意相信吗？

人去世后会去到哪里？从科学的角度看待死亡，你愿意相信吗？

空空野行记 2025-01-15 14:59:34

女孩数学考了94分把好消息告诉爸爸，却被爸爸“泼了一盆冷水”

女孩数学考了94分把好消息告诉爸爸，却被爸爸“泼了一盆冷水”

老兵说事儿 2025-01-17 15:20:51

又一位科学家从美归国，入职北大！

又一位科学家从美归国，入职北大！

齐鲁壹点 2025-01-18 07:10:31

中韩萌娃佑佑学数学，努力又可爱的学习日常

中韩萌娃佑佑学数学，努力又可爱的学习日常

韩国媳妇和小雪呀 2025-01-17 10:59:27

985含金量下跌，厦大数院本科生质量公布，17人就业，升学本校多

985含金量下跌，厦大数院本科生质量公布，17人就业，升学本校多

东东趣谈 2025-01-18 16:12:36

最高138.7分！国产大模型「考研数学」成绩单出炉，哪家AI能上岸？

最高138.7分！国产大模型「考研数学」成绩单出炉，哪家AI能上岸？

人工智能学家 2025-01-16 18:25:27

凡事总有个科学解释，但是我承认有那么一瞬间我怂了一下下

凡事总有个科学解释，但是我承认有那么一瞬间我怂了一下下

清淡欢颜 2025-01-17 00:00:00

小镇做题家择偶时，难以避开的两个坑

小镇做题家择偶时，难以避开的两个坑

冷爱 2025-01-15 14:50:06

小伙用科学手段，竟然能看到上帝

小伙用科学手段，竟然能看到上帝

老婆饼追剧 2025-01-16 13:33:26

心理学上有过一个实验叫：大脑纠正实验（为什么大脑会形成自我欺骗的行为模式？）

心理学上有过一个实验叫：大脑纠正实验（为什么大脑会形成自我欺骗的行为模式？）

青少年心理自救 2025-01-17 23:03:17

数学老师要回老家结婚，临走前给班里的学生发了喜糖和小红包，“这将是老师和学生一辈子难忘的回忆”！

数学老师要回老家结婚，临走前给班里的学生发了喜糖和小红包，“这将是老师和学生一辈子难忘的回忆”！

博闻视角 2025-01-17 14:39:01

1991年高考题：“凹”字正确的写法有几笔画？很多人都会写错

1991年高考题：“凹”字正确的写法有几笔画？很多人都会写错

中华小文库 2025-01-17 18:01:58

二年级下册数学计算步骤越来越难了，寒假准备这本口算专项训练

二年级下册数学计算步骤越来越难了，寒假准备这本口算专项训练

甘州区融媒体中心 2025-01-17 17:33:08

Cell Stem Cell：北京大学杜鹏团队利用全能性干细胞实现了早期胚胎发育过程的精准重建

Cell Stem Cell：北京大学杜鹏团队利用全能性干细胞实现了早期胚胎发育过程的精准重建

生物世界 2025-01-18 17:02:58

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

每天1节体育课、“学数学到北滘”！北滘教育再出实招

每天1节体育课、“学数学到北滘”！北滘教育再出实招

南方都市报 2025-01-18 19:41:17

何谓分析现象学

中国社会科学网 2025-01-18 16:49:50

刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

机器之心Pro 2025-01-16 21:12:42

合成数据的突破: 从降低迎合性偏差到认知自主性的重构

合成数据的突破: 从降低迎合性偏差到认知自主性的重构

DeepTech深科技 2025-01-04 10:23:05

OpenAI员工疯狂暗示，内部已成功开发ASI？被曝训出GPT-5但雪藏

OpenAI员工疯狂暗示，内部已成功开发ASI？被曝训出GPT-5但雪藏

新智元 2025-01-17 15:16:16

可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

机器之心Pro 2024-12-12 20:41:08

阿尔特曼爆猛料：超快推理模型o3-mini预计几周内上线，GPT系列或与o系列合并！专家猜测GPT-5也许永远不会公开发布

阿尔特曼爆猛料：超快推理模型o3-mini预计几周内上线，GPT系列或与o系列合并！专家猜测GPT-5也许永远不会公开发布

每日经济新闻 2025-01-18 18:22:06

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

给AI agent保驾护航、让大模型聊天管住嘴，英伟达造了个安全利器

智东西 2025-01-17 19:58:21

大模型可视化工具爆火，GPT推理过程一目了然

大模型可视化工具爆火，GPT推理过程一目了然

量子位 2024-11-18 15:41:30

美国网友向中国网友求助数学题，“小红书”秒变“作业帮”，网友：世界是个巨大的帮帮网

美国网友向中国网友求助数学题，“小红书”秒变“作业帮”，网友：世界是个巨大的帮帮网

渝派生活帮 2025-01-17 13:17:25

数学分数除法，中国与美国的方法，你更喜欢哪个？

数学分数除法，中国与美国的方法，你更喜欢哪个？

爆笑趣事万花筒 2025-01-15 09:28:43

合肥168中数学培优题，只要对公式敏感，对于学霸而言不在话下

合肥168中数学培优题，只要对公式敏感，对于学霸而言不在话下

三乐大掌柜 2025-01-15 03:46:32