CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

o3拿下IOI 2024金牌！新论文公布秘诀：AI自己设计测试时推理策略

2025-02-12 15:21:59

衡宇发自凹非寺
量子位 | 公众号 QbitAI

IOI 2024金牌，OpenAI o3轻松高分拿下！

刚刚，OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告，论文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具体成绩。

三兄弟分别是OpenAI o1、o1-ioi（以o1为基础微调等改进而来）、o3，三者成绩如下。

IOI 2024，国际信息学奥林匹克竞赛：

o1-ioi在严格规则下拿到213分（49th percentile），放宽提交限制后飙升至362.14分；
o3在严格规则下就拿到了395.64分，达成金牌成就。

CodeForeces，模拟真实竞赛环境评估模型。

其中，o1-ioi和o3的评分显著高于o1，尤其是o3，已经接近顶级人类选手：

o1：1673（89th percentile）
o1-ioi：2214（98th percentile）
o3：2724（99.8th percentile）

论文迅速在全网扩散开来，网友竞相传阅并激烈讨论。

有网友注意到，o1-ioi在IOI 2024上表现出色，是因为它为每个问题生成了10000个候选解决方案，还用上了复杂的test-time策略；而o3在严格限制下达到顶级选手水平，仅用了50次提交，且无人工策略干预。

这就引出了OpenAI在论文中的一个高亮结论——

o3的表现，证明了通过大规模端到端RL（强化学习），无需依赖人工设计的测试时推理策略，就能自己学会先写暴力求解代码提高效率，再用其他方法交叉验证的策略。

网友满嘴喊着“impressive”：

下一个里程碑，是出现「单次提交就能搞定每个问题」的模型。
或许OpenAI o4会带来这个时刻。

目前，这篇名为《Competitive Programming with Large Reasoning Models》的报告论文已经挂在了arXiv上，文末可见直通车。

o系三兄弟，竞赛编程各显神通

竞技编程，是评估大模型推理和编码能力的理想测试场景。

OpenAI表示，这篇论文的研究目的，是探究在复杂编码和推理任务中，RL对大模型所起到的作用。

研究过程还对比了通用推理模型与领域特定系统的性能，探索提升AI推理能力的有效路径。

参与研究的推理模型共3个，均出自OpenAI自家家门，分别是：

OpenAI o1
OpenAI o1-ioi
OpenAI o3

通用推理模型o1

o1是一个经过RL训练的大模型，用于处理复杂的推理任务。

通过RL训练，o1能生成CoT（chain-of-thought，思维链），其作用是思考和解决复杂问题，帮助模型识别和纠正错误，将复杂任务分解为可管理的部分，并在方法失败时探索替代解决方案路径。

除此之外，o1还可调用外部工具验证代码。

在CodeForce基准测试中，o1拿下了1673分（89th percentile）。

相比非推理模型（如GPT-4o），和早期推理模型（如o1-preview），o1成绩均有显著提升。

此外，研究人员在对o1进行开发和评估的过程中，发现增加「RL计算量」以及「test-time推理计算量」两方面的工作，都能持续提升模型性能。

如下图所示，扩展RL训练和扩展test-time推理均带来了显著的收益。

针对性训练推理模型o1-ioi

在发现增加「RL计算量」以及「test-time推理计算量」的重要性后，OpenAI团队在o1基础上进行针对性训练，得到o1-ioi，目标直指IOI 2024。

除了针对编码任务的持续RL训练外，o1-ioi还结合了专为竞赛编程而设计的专用test-time推理策略（类似AlphaCode的人工设计的test-time推理策略）。

此过程第一步是扩展o1的RL阶段，专注于编码任务。

通过将额外的训练计算专用于编程问题，团队增强了模型规划、实施和调试更多涉及的解决方案的能力。

具体如下：

从o1的checkpoint恢复了RL训练。
特别强调了具有挑战性的编程问题，帮助模型改进C++生成和运行时检查。
指导模型以IOI提交格式生成输出。

这种对编码的额外关注，使o1-ioi能在推理期间编写和执行C++程序。

该模型通过迭代运行和优化解决方案来改进其推理能力，从而增强了其编码和解决问题的能力。

o1-ioi参与了人类选手相同条件的IOI 2024。

它有10个小时的时间，来解决6个具有挑战性的算法问题，每个问题最多允许提交50次。

参赛期间，系统为每个问题生成了10000个候选解决方案，并使用test-time推理策略选了50个方案来提交——这里的test-time推理策略是，根据IOI公共测试用例、模型生成测试用例和学习的评分函数上的表现，来确定每个提交内容的优先级。

最终，o1-ioi在IOI 2024获213分，排名前49%。

在CodeForces基准测试上，o1-ioi的评分达到1807，超过了93%的竞争对手。

论文中写道，“这表明，在编码任务上的额外RL训练有了明显的改进。”

然后，团队用一个简单的筛选条件来拒绝任何未通过公开测试的解决方案时，评分上升到2092。

最终，在完整的test-time推理策略推动下，o1-ioi的评分飙升到2214。

这些结果证实，特定领域的RL微调与高级选择启发式相结合，可以显著提高有竞争力的编程结果。

研究人员表示，o1-ioi的表现，证明特定领域的RL微调与先进选择策略，是可以提升竞技编程成绩的。

通用推理模型o3

第三个参战的是OpenAI最新推理模型o3。

基于o1和o1-ioi的表现，OpenAI团队探索了纯RL训练、不依赖人工设计的test-time策略的局限性。

甚至试图探索用RL进一步训练，该模型是否能够自主开发和执行自己的test-time推理策略

为此，团队取得了o3的早期checkpoint的访问权限，来评估竞赛编程。

参与IOI 2024竞赛时，o3与o1-ioi一样严格遵守官方规则，每个问题最多允许提交50次。

与o1-ioi为每个子任务单独采样解决方案不同，团队在评估o3时，采用了不同的方法：

从包含原始问题的单个提示中采样。

△o3测试自己的解决方案

多提一句，参加IOI 2024的o3版本比参加CodeForce的o3版本更新，包含了额外的更新的训练数据。

不过团队确认了IOI 2024的测试集不包含在新的训练测试里。

在单个问题只能提交50次的限制下，o3在IOI 2024的最终得分是395.64，超过了IOI 2024金牌门槛。

（IOI 2024共产生34名金牌选手，金牌线为≥ 359.71）

而在CodeForce基准测试上，仅仅依靠进一步的RL，o3就获得了2724分的成绩，力压99.8%的选手。

这个成绩直逼人类顶尖选手的水准！

值得注意的是，从得分2214的o1-ioi（超越98%选手），到得分2724的o3（超越99.8%选手），反映了推理模型在竞赛编程中的显著提升。

这表明o3能够以更高的可靠性，解决更广泛的复杂算法问题，使其能力更接近CodeForces的顶级人类竞争对手。

更有意思的是，o3在CodeForce参赛期间展现出了更深思熟虑的思维链。

它不仅能写代码、执行并验证，还会根据反馈不断完善解法。

面对验证复杂的难题，o3在端到端RL期间，竟然学会了先写出暴力解法，再用最优算法的结果来交叉验证。

这种自主学习的验证机制，有效提高了方案的可靠性。

综上，团队表明，o3的性能优于o1-ioi的原因，不依赖于针对IOI的特定人工设计的test-time策略。

相反，o3训练期间出现的复杂test-time技术——如用暴力解法来验证输出——成为了人工设计策略的替代品，让o3不需要o1-ioi所需的手动设计聚类、选择pipeline等需求。

且比人工设计策略的性能高出不少。

软件工程任务表现如何？

除了竞赛编程，论文还在真实的软件工程任务上测试了OpenAI推理模型三兄弟的表现。

团队主要是在2个数据集上测试了仨模型：

HackerRank Astra：用于评估大模型在跨域多文件项目问题上正确性和一致性的测试集
SWE-bench：用于评估和预测软件工程的基准测试和模型评估集，由普林斯顿大学NLP团队开发

令人惊喜的是，推理能力的增强对软件工程任务也有显著提升。

三兄弟不仅能在竞赛编程中直逼人类顶尖选手，在真实的软件工程任务上也有亮眼表现。

具体如下：

HackerRank Astra

HackerRank Astra由65个面向项目的编码挑战组成，每个挑战都是为了模拟真实的软件开发任务而精心设计的。

这些挑战涵盖了一系列框架，包括 React.js、Django 和 Node.js，允许获得构建功能和应用程序的实践经验。

该数据集的与众不同之处在于，它专注于评估反映实际开发环境的复杂、多文件、长上下文场景中的问题解决技能。

与典型的竞争性编程数据集不同，HackerRank Astra不提供公开的测试用例，这使OpenAI团队无法依赖人工制作的测试时策略。

使用此数据集评估性能可以揭示推理能力是单独提高算法问题解决的成功率，还是扩展到更实际的、与行业相关的编码任务。

上图中的pass@1，表示首次尝试成功完成任务的概率；平均分数，代表了通过的测试用例的平均比例。

结果显示，与GPT-4o相比，o1-preview的pass@1提高了 9.98%，平均分提高了6.03分。

而RL进一步微调可以提升o1的性能，其pass@1为63.92%，比o1-preview提高了3.03%；平均得分为 75.80。

这些指标证明了o1增强的推理和适应性，使其能够有效地处理复杂的、与行业相关的软件开发任务。

SWE-bench

SWE-bench由普林斯顿大学NLP团队开发，而SWE-bench Verified是OpenAI的preparedness团队经过人工验证的SWE-bench的子集。

它可以更可靠地评估AI模型解决实际软件问题的能力。

这组经过验证的500个任务，修复了SWE-bench的某些问题，如正确解决方案的不正确评分、未指定的问题陈述以及过于具体的单元测试——这有助于确保基准测试准确地对模型功能进行分级。

所有模型都尝试5次来生成候选patch。

如上图所示，与GPT-4o相比，o1-preview在SWE-bench上的性能提高了 8.1%，展示了推理能力的显着进步。

通过在训练期间应用额外的RL计算，o1进一步改进了8.6%。

值得注意的是，训练计算资源比o1多得多的o3，比o1改进了22.8%，“非常impressive”。

这些结果表示，推理模型对软件工程等实际任务，也有很大适用性和使用价值。

One More Thing

OpenAI员工表示，一张梗图可以很好地总结这篇论文。

略显遗憾的是，OpenAI这篇新作虽然挂在了arXiv上，但更像是报告而非论文——因为整篇论文没怎么透露方法细节，光晒成绩单了。

但其中所写还是引起了网友的感慨：

任何可以测量的东西，都将得到改善。

论文直通车：
https://arxiv.org/pdf/2502.06807

参考链接：
[1https://x.com/arankomatsuzaki/status/1889522974467957033
[2]https://x.com/iScienceLuvr/status/1889517116816244995
[3]https://x.com/jennywxiao/status/1889517249033281631

幸好苹果国行 AI 没有选择 DeepSeek

幸好苹果国行 AI 没有选择 DeepSeek

爱范儿 2025-02-12 18:14:41

人工智能行动峰会巴黎落幕多国签署声明英美缺席

人工智能行动峰会巴黎落幕多国签署声明英美缺席

经济观察报 2025-02-12 18:26:05

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

新智元 2025-02-12 16:59:40

盘点逼迫联盟改变规则的四皇一帝，你都知道哪几个？

盘点逼迫联盟改变规则的四皇一帝，你都知道哪几个？

二爷台球解说 2025-02-10 00:10:23

哪吒每个角色都被困在人生算法之中

哪吒每个角色都被困在人生算法之中

彭小瓜子儿 2025-02-12 13:16:15

泽连斯基：乌克兰计划同俄罗斯互换部分领土

泽连斯基：乌克兰计划同俄罗斯互换部分领土

新京报 2025-02-12 07:54:44

原子核之父卢瑟福，原子模型震惊世界，荣获诺贝尔化学奖

原子核之父卢瑟福，原子模型震惊世界，荣获诺贝尔化学奖

东北小霞的乡村生活 2025-02-10 18:03:17

“普京大脑”预测：特朗普将尝试离间中俄，但这种策略注定失败

“普京大脑”预测：特朗普将尝试离间中俄，但这种策略注定失败

环球独家 2025-02-11 11:08:01

直指端侧痛点豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

直指端侧痛点豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

财联社 2025-02-12 14:04:40

ECU标定核心技术揭秘：A2L文件的结构、应用与重要性分析

ECU标定核心技术揭秘：A2L文件的结构、应用与重要性分析

新能源自动驾驶 2025-02-12 15:37:31

花199买个固体火箭模型，真的能飞上天实现降落伞回收吗？

花199买个固体火箭模型，真的能飞上天实现降落伞回收吗？

大叔记录农村的生活 2025-02-11 13:37:43

科技的温度不在于精密的算法，而在于它能让被岁月碾碎的人重新捡起生活的碎片

科技的温度不在于精密的算法，而在于它能让被岁月碾碎的人重新捡起生活的碎片

奇观趣闻 2025-02-10 14:24:53

苹果和阿里巴巴将为中国iPhone用户开发AI功能

苹果和阿里巴巴将为中国iPhone用户开发AI功能

财联社 2025-02-11 22:13:43

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

DeepSeek上车，高端智驾进入10万元车型？

DeepSeek上车，高端智驾进入10万元车型？

出行一客 2025-02-12 15:04:38

WTT优化赛事规则：取消强制参赛规则，奥运冠军可获外卡，WTT新规下樊振东陈梦可直接参赛

WTT优化赛事规则：取消强制参赛规则，奥运冠军可获外卡，WTT新规下樊振东陈梦可直接参赛

城市大眼睛 2025-02-12 12:35:15

外媒：德国经济部长卷入论文剽窃风波

外媒：德国经济部长卷入论文剽窃风波

海外网 2025-02-12 09:54:05

青年发现钱学森论文错误，当即写信纠正，钱老如何回复？

青年发现钱学森论文错误，当即写信纠正，钱老如何回复？

史海放映机 2025-02-10 16:16:54

国内两大汽车央企合并一汽被指或在整合完成后加入

国内两大汽车央企合并一汽被指或在整合完成后加入

界面新闻 2025-02-12 08:36:38

小白必看奔驰AMG GT 从何而来【车系迭代】

小白必看奔驰AMG GT 从何而来【车系迭代】

MCAuto 2025-02-09 19:00:00

网络中国节·元宵 | 科普闹元宵编程送祝福

网络中国节·元宵 | 科普闹元宵编程送祝福

网信滨海 2025-02-12 15:51:41

美舰船今年首次过航台湾海峡过航方式出现了"新花样"

美舰船今年首次过航台湾海峡过航方式出现了"新花样"

环球网资讯 2025-02-12 10:37:16

亚冠精英-海港客场0-4惨败神户颜骏凌扑点

亚冠精英-海港客场0-4惨败神户颜骏凌扑点

网易体育 2025-02-11 19:59:21

小伙疑看了房没买发生纠纷售楼处小姐追上车掐脖薅头

小伙疑看了房没买发生纠纷售楼处小姐追上车掐脖薅头

南北分界线 2025-02-12 08:07:31

GTR 曾经的辉煌日产最强车系？【车系迭代】

GTR 曾经的辉煌日产最强车系？【车系迭代】

MCAuto 2025-02-08 19:00:00

猫和狗都是有策略的！

齐姐说明星 2025-02-10 17:31:23

美国纽约八大道举行游神活动网友：福建这波全球第一

美国纽约八大道举行游神活动网友：福建这波全球第一

范竹视频 2025-02-12 08:32:05

DeepSeekR1模型详解-大模型训练为什么需要强化学习？

DeepSeekR1模型详解-大模型训练为什么需要强化学习？

卢菁老师 2025-02-09 08:41:35

引领少儿 AI 编程教育革新！英荔教育率先接入 DeepSeek

引领少儿 AI 编程教育革新！英荔教育率先接入 DeepSeek

北青网-北京青年报 2025-02-11 14:20:13

女子骑电瓶车外出刚刚起步就一头扎进池塘

女子骑电瓶车外出刚刚起步就一头扎进池塘

征垣之路 2025-02-12 00:02:41

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

新智元 2025-02-12 12:47:41

超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度

超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度

机器之心Pro 2025-02-12 16:35:29

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版

4500美元验证强化学习「魔力」，1.5B模型也能超越o1预览版

机器之心Pro 2025-02-12 17:30:27

科德数控：对DeepSeek等多款AI大模型本地化部署开展应用验证工作

科德数控：对DeepSeek等多款AI大模型本地化部署开展应用验证工作

每日经济新闻 2025-02-12 13:11:07

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践

如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践

机器之心Pro 2025-02-12 17:01:05

AI飞速发展，人们还有工作吗？这是Altman的回答

AI飞速发展，人们还有工作吗？这是Altman的回答

华尔街见闻官方 2025-02-12 14:24:11

滕泰：DeepSeek的成功是谁的胜利，刷新了哪些认知？

滕泰：DeepSeek的成功是谁的胜利，刷新了哪些认知？

经济观察报 2025-02-12 18:08:15

Meta视频AI王者登场，打爆Sora！体操运动终于不再鬼畜

Meta视频AI王者登场，打爆Sora！体操运动终于不再鬼畜

新智元 2025-02-12 12:47:49