CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

2024-12-26 15:05:56

新智元报道

编辑：编辑部 Zjh

【新智元导读】Anthropic联创发文表示，谁要是说Scaling Law撞墙了，那他绝对错了！在25年，AI靠测试时计算还会继续加速。不过，随之而来的推理成本也是天价，o3的每个任务成本高达20美元，怎么办？

Scaling Law要撞墙了？

Anthropic联创Jack Clark反驳了这一说法：绝非如此！

在他看来，目前的AI发展还远远没到极限，「所有告诉你AI进展正在放缓，或者Scaling Law正在撞墙的人，都是错误的。」

o3仍有很大的增长空间，但采用了不同的方法。

OpenAI的技术秘诀并不是让模型变得更大，而是让它们在运行时，使用强化学习和额外的计算能力。

这种「大声思考」的能力，为Scaling开辟了全新的可能性。

而Jack Clark预计，这一趋势在2025年还会加速，届时，科技公司都会开始将大模型的传统方法跟在训练和推理时使用计算的新方法相结合。

这个论断，跟OpenAI首次推出o系列模型时的说法完全吻合了。

在同一时间，MIT的研究者也发现，采用测试时训练（TTT）技术，能显著提高LLM进行逻辑推理和解决问题的能力。

论文地址：https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墙，绝对错了

在他的新闻通讯《Import AI》中，Clark对关于AI发展已到达瓶颈的观点进行了反驳。

博文地址：https://jack-clark.net/

比如OpenAI的o3模型，就证明了AI极大的发展空间。

在现有强大基础模型之上，采用一种新方法——让大语言模型在推理时「边思考边执行」，即测试时计算（test-time compute）。这种方式能带来巨大的回报。

因此Clark预计，下一个合理的发展方向将是同时扩展强化学习（RL）和底层基础模型，这将带来更为显著的性能提升。

这意味着，随着现有方法（大模型scaling）与新方法（强化学习驱动的测试时计算等）的结合，2025年的AI进展相对2024年会进一步加速。

OpenAI著名研究员Jason Wei也表示，更加关键的是，从o1到o3的进步也仅仅只用了3个月，这说明了在推动人工智能领域发展方面来讲，强化学习驱动的推理扩展计算范式，会比预训练基础模型的传统扩展范式快得多。

这并非空谈，Clark列举了不少o3的亮眼成绩来证明他的观点。

首先，o3有效突破了「GPQA」科学理解基准（88%），这彰显了它在科学领域进行常识推理和解答的能力。

它在「ARC-AGI」这一任务上的表现优于亚马逊众包平台（MTurk）雇佣的人类工作者。

甚至，o3在FrontierMath上达到了25%的成绩——这是一个由菲尔兹奖得主设计的数学测试，就在几个月前，SOTA的成绩仅为2%。

并且，在Codeforces上，o3获得了2727分，排名第175。这让它成为这一极其困难基准上的最佳竞技程序员之一。

模型成本将更难预测

Clark认为，大多数人还没有意识到未来进展的速度将会有多快。

「我认为，基本上没有人预见到——从现在开始，AI进展将会有多么急剧。」

同时，他也指出，算力成本是急速进展中的一个主要挑战。

o3之所以如此优秀，其中的一个原因是，它在推理时的运行成本更高。

o3的最先进版本需要的算力比基础版多170倍，而基础版的算力需求已经超出了o1的需求，而o1本身所需的算力又超过了GPT-4。

o系列模型的性能与成本

Clark解释说，这些基于推理扩展范式的新模型使得成本预测变得更加困难。

过去，模型的成本费用是很直观的，主要取决于模型的大小和输出长度。

但在o3这类模型中，由于其资源需求会根据具体任务的不同而变化，所以也更难直观地给出模型执行任务时的花费。

o3推理成本达新高

除了FrontierMath和Codeforces上的成绩，o3在GPT Diamond Benchmar上，对于博士级的科学问题也拿到了87.7%，远高于各自领域博士专家70%的平均分。

ARC-AGI基准测试开发者、Keras之父François Chollet，将o3的性能称为「AI能力中令人惊讶且重要的阶跃函数增长」

而这背后付出的代价，就是运行o3极高的成本。

之所以会造成如此高的成本，就是源于o3和其他模型处理问题方式的不同。

传统的LLM主要依靠的是检索存储模式，但o3处理问题时，却是靠实时创建新程序，来解决不熟悉的挑战。

Chollet表示，o3系统的工作原理，似乎和谷歌DeepMind的AlphaZero国际象棋程序类似。后者会有条不紊地搜索可能的解决方案，直到找到正确方法。

这个过程也就解释了，为什么o3需要如此多的算力——只为单个任务，模型就需要处理多达3300万个token。

跟当前的AI系统相比，这种密集的token处理成本，简直是天价！

高强度推理版本的每个任务，运行费用约为20美元。

也就是说，100个测试任务的成本为2012美元，全套400个公共任务的成本则达到了6677美元（按平均每个任务花费17美元计算）。

而对于低强度推理版本，OpenAI尚未透露确切的成本，但测试显示，此模型可以处理33至1.11亿个token，每个任务需要约1.3分钟的计算时间。

o3在ARC-AGI基准测试中必须解决的视觉逻辑问题示例

等待Anthropic的下一步

所以，Anthropic下一步会给我们带来什么呢？

目前，由于Anthropic尚未发布推理模型（reasoning model）或测试时模型（test-time model），来与OpenAI的o系列或Google的Gemini Flash Thinking竞争，Clark的这一番预测，不禁让人好奇Anthropic的计划。

他们之前宣布的Opus 3.5旗舰模型至今仍没有确切消息。

开发周期长达一个月，过程充满不确定性

在11月，Anthropic CEO Dario Amodei曾证实，公司正在开发Claude Opus的新版本。

起初，Opus 3.5定于今年发布，但后来Amodei再提到它时，只是说它会在「某个时刻」到来。

不过Amodei倒是透露，公司最近更新和发布的Haiku 3.5，性能已经跟原始的Opus 3相匹敌，同时运行速度还更快，成本也更低。

其实，这也不仅仅是Anthropic面临的问题。

自GPT-4亮相以来，LLM的功能并没有取得重大飞跃，这种停滞已经成为AI行业内一种普遍的广泛趋势。

更多时候，新发布的模型只是微小的进步，跟之前有一些细微的差别。

开发更先进的LLM，为何如此复杂

在Lex Fridman的播客访问中，Amodei详细讲述了开发这些AI模型的复杂性。

他表示，仅训练阶段，就有可能会拖延数个月，还会需要大量的计算能力，用上数以万计的专用芯片，如GPU或TPU。

预训练过后，模型将经历复杂的微调的过程，一个关键部分就是RLHF。

人类专家会煞费苦心地审查模型的输出，根据不同标准对其进行评分，帮助模型学习和改进。

接下来，就是一系列内部测试和外部审计，来检查模型的安全问题，通常是与美国和英国的AI安全组织合作。

总之，Amodei总结道：虽然AI的突破在圈外人士看来，像一个巨大的科学飞跃，但其实很多进步都可以归结为枯燥和无聊的技术细节。

在此过程中，最困难的部分通常是软件开发、让模型运行得更快，而不是重大的概念进步。

而且，每个新版本模型的「智能」和「个性」，也都会发生不可预测的变化。在他看来，正确训练模型与其说是一门科学，不如说是一门艺术。

即使真正发布的Opus 3.5的性能有了提升，却也不足以证明其高昂的运营成本是合理的。

不过，虽然有人认为Anthropic没有紧跟推理模型的步伐，已经足以反映LLM扩展的巨大挑战；但不得不说，Opus 3.5也并非毫无意义。

显然，它帮助训练了全新的Sonnet 3.5，它已经成为了当今市场上最受欢迎的LLM。

参考资料：

https://the-decoder.com/ai-progress-in-2025-will-be-even-more-dramatic-says-anthropic-co-founder/

https://jack-clark.net/2024/12/23/import-ai-395-ai-and-energy-demand-distributed-training-via-demo-and-phi-4/

理想发布全新OTA：车机可显示10条端到端推理结果，驾驶员可监督汽车驾驶

理想发布全新OTA：车机可显示10条端到端推理结果，驾驶员可监督汽车驾驶

车东西 2024-12-27 13:30:21

Scaling Law无法无限扩展？科学家揭示低精度训练的极限

Scaling Law无法无限扩展？科学家揭示低精度训练的极限

DeepTech深科技 2024-11-13 21:38:25

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

遛狗不牵绳，小狗咬伤小区居民，狗主人抱着狗径直离开

遛狗不牵绳，小狗咬伤小区居民，狗主人抱着狗径直离开

钱江视频 2024-12-26 15:59:31

十问CPU做AI推理，伪命题还是真需求？

十问CPU做AI推理，伪命题还是真需求？

量子位 2024-07-16 17:16:48

用青春脚步丈量祖国壮美山河——记现代测绘基准建设与维持青年突击队

用青春脚步丈量祖国壮美山河——记现代测绘基准建设与维持青年突击队

西北信息报 2024-12-25 09:40:05

填湖造陆塌陷裂痕越来越大看推土机技术救援裂痕

填湖造陆塌陷裂痕越来越大看推土机技术救援裂痕

苏苏浅漾 2024-12-25 13:10:15

比亚迪巴西工厂施工方员工集体声明：护照没被扣，工资正常发，福利保障都有！李云飞也有最新回应

比亚迪巴西工厂施工方员工集体声明：护照没被扣，工资正常发，福利保障都有！李云飞也有最新回应

每日经济新闻 2024-12-26 20:52:12

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

机器之心Pro 2024-09-04 22:17:21

回填地基来阻挡水域完成100%，推土机展示了精湛的操作技术！

回填地基来阻挡水域完成100%，推土机展示了精湛的操作技术！

李景军 2024-12-24 03:02:29

两屋之间回填完成百分百，推土机和卡车都展示了惊人的技术！

两屋之间回填完成百分百，推土机和卡车都展示了惊人的技术！

李景军 2024-12-24 03:57:04

东北肉贩在三亚与人发生争执，手持双刀称要杀了对方！

东北肉贩在三亚与人发生争执，手持双刀称要杀了对方！

众横四海 2024-12-26 17:16:03

2023悬疑复仇美剧重现，环环相扣的剧情逻辑，让人流连忘返

2023悬疑复仇美剧重现，环环相扣的剧情逻辑，让人流连忘返

怪咖侃电影 2024-12-26 15:20:06

在美国在中国，言行不一样！不合逻辑，必有猫腻

在美国在中国，言行不一样！不合逻辑，必有猫腻

二虎涛哥 2024-12-26 15:32:30

弹劾9天后，尹锡悦找到救命稻草，韩方通知特朗普，程序出现漏洞

弹劾9天后，尹锡悦找到救命稻草，韩方通知特朗普，程序出现漏洞

毒舌混知所 2024-12-25 17:11:16

ChatGPT拒绝谈论这个人，没人知道为什么

ChatGPT拒绝谈论这个人，没人知道为什么

量子位 2024-12-02 13:07:36

网友实拍雪乡大通铺多张床一字排开中间用木板隔断

网友实拍雪乡大通铺多张床一字排开中间用木板隔断

征垣之路 2024-12-26 21:22:22

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

量子位 2024-07-23 18:10:04

判断一个人是不是人才，就看这一点

判断一个人是不是人才，就看这一点

互联网思维 2024-09-04 23:32:27

这是正常人的相亲逻辑吗，反正我接受不了

这是正常人的相亲逻辑吗，反正我接受不了

山村小伙熊大丫 2024-12-26 09:48:48

程序不当，执法必亮证而且必须两个人

程序不当，执法必亮证而且必须两个人

番茄追剧君 2024-12-26 18:20:00

美女极限贪炸，这操作和掘开差不多！

美女极限贪炸，这操作和掘开差不多！

涩会小阿敏 2024-12-26 08:56:09

5比5决胜局，赵心童上演极限准度三板斧，希金斯当场哭晕在厕所

5比5决胜局，赵心童上演极限准度三板斧，希金斯当场哭晕在厕所

抖球 2024-12-25 08:55:13

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

机器之心Pro 2024-08-16 17:22:16

变态逻辑大赏！借东西动手，打一顿就开心？

变态逻辑大赏！借东西动手，打一顿就开心？

路曼 2024-12-25 22:32:51

养老制度的底层经济逻辑

新哥财经v 2024-12-24 17:21:35

年轻人抛弃搜索引擎

虎嗅APP 2024-10-09 16:10:30

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

钛媒体APP 2024-08-23 18:19:34

程序员哭诉：42岁已不可能工作了！一共沟通15550次，没有机会

程序员哭诉：42岁已不可能工作了！一共沟通15550次，没有机会

火山诗话 2024-12-26 14:47:12

美国国防部：解除对中方制裁！

星辰故事屋 2024-12-22 22:57:16

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

量子位 2024-12-27 12:40:25

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

机器之心Pro 2024-08-16 17:41:46

钛动科技陈德品：Scaling Law在营销应用中也适用 | MEET2025

钛动科技陈德品：Scaling Law在营销应用中也适用 | MEET2025

量子位 2024-12-26 11:53:34

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

智东西 2024-12-25 18:35:46

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

机器之心Pro 2024-11-19 15:50:17

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35

雷军砸千万年薪，挖来95后“天才少女”

雷军砸千万年薪，挖来95后“天才少女”

财经天下WEEKLY 2024-12-27 11:17:04

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

机器之心Pro 2024-09-05 10:30:36

特斯拉199元摆件迅速售空二手市场大量上架炒至600元

特斯拉199元摆件迅速售空二手市场大量上架炒至600元

封面新闻 2024-12-26 17:18:09

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

新智元 2024-12-27 10:18:17