CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

2025-03-01 14:24:22

新智元报道

编辑：编辑部 JHZ

【新智元导读】GPT-4.5上线一天，已经引起了集体群嘲：这个模型彻头彻尾失败了，OpenAI已经陷入严重困境，失去护城河！有人算出，GPT-4.5比DeepSeek V3贵了500倍，性能却更差。有的权威AI预测者看完GPT-4.5，气得直接把AGI预测时间推后了……当然了，OpenAI并不这么认为。

自从OpenAI发布GPT-4.5之后，Ilya这张图又开始火了。

GPT-4.5令人失望的表现，再次印证了Ilya这句话的含金量：预训练已经达到极限，推理Scaling才是未来有希望的范式。

GPT-4.5在基准测试上并没有提升，推理没有增强，只是变成了一个更易于合作、更有创造性、幻觉更少的模型。

GPT-4.5的「失败」更加证明，Ilya是对的。

现在，各方评测都已经出炉，结果显示，OpenAI实在是太打脸了。

从ARC-AGC的评估上来看，GPT-4.5几乎跟GPT-4o处于同一水平，智能上似乎没有任何提升。

纽约大学教授马库斯直接发长文痛批：GPT-4.5就是个空心汉堡。

一位AI初创CEO更是直言：在自己心目中最实用评估基准Aider Polyglot上，OpenAI的「镇国之宝」GPT-4.5，比DeepSeek-V3贵了500倍，但表现反而更差。

如果这个结果准确，那OpenAI将陷入严重困境，甚至是彻底失去护城河！

与此同时，国内这边DeepSeek连续6天给人们带来了开源暴击，R1模型直接减价75%。

总之，在DeepSeek、xAI Grok 3、Anthropic首个混合模型Cluade 3.7 Sonnet等的前后夹击之下，OpenAI这位昔日明星，如今显然已风光不再。

「GPT-4.5真这么差？我不会看错了吧」

正如上文所提，刚刚那位AI初创CEO在看到下面这张图表后，感觉实在难以置信，因为GPT-4.5 Preview的表现，直接全班垫底。

为此，他还求证了表格制作者，对方表示自己仔细检查了性能数据，进行了多次运行，能保证每个结果都是对的。

GPT-4.5比GPT-4基础模型多出了10倍的预训练计算量，但却什么都不擅长，这合理吗？

有人猜测说，GPT-4.5可能并没有经过太多的监督微调，因为OpenAI本来是打算将其作为未来模型（如GPT-5）的基础模型或教师模型，用于进一步通过强化学习进行微调的。

可能是这个原因，导致它在代码的指令遵循上不算特别强。

或者，问题可能出在了数据混合上，因为OpenAI这次采用了一种全新的训练机制，所以可能有某种「成长痛」。

不过令人心凉的是：OpenAI内部许多能做到这件事的人，如今已经走了。

有人直接开麦表示：「如果DeepSeek能有OpenAI的资金量，那我们就完蛋了」。

还有人调侃道，这可能就是所谓的「用智商换情商」吧。

不管怎么说，在大家眼中，OpenAI的先发优势已经不复存在了。

左右滑动查看

马库斯：OpenAI彻底失去护城河

马库斯转发了这个结果惊人的研究后表示，不管OpenAI在两年前有什么优势，如今他们已经彻底失去了护城河。

虽然他们现在仍拥有响亮的名字、大量数据和众多用户，但相对竞争对手并未拥有任何决定性的优势。

Scaling并没有让他们走到AGI的终点。GPT-4.5非常昂贵，GPT-5也失败了。

所有人都开始疑问：OpenAI能拿出的，就只有这么多了？

现在，DeepSeek已经引发了一场价格战，削减了大模型的潜在利润。而且，目前还没有任何杀手级应用出现。

在每一次模型的响应中，OpenAI都在亏损。公司的烧钱速度如此之快，但资金链却有限，连微软也不再完全支持他们了。

如果不能快速转型为非营利组织，一大笔投资就会变成债务。

而且，Ilya、Murati、Schulman……许多顶尖人物已经离开。

如果孙正义改变主意，OpenAI就会立刻面临严重的现金问题（马斯克有一句话说对了，星际之门的很大一部分资金，他们并没有拿到手）。

总之，在推出ChatGPT上，奥特曼确实是那个正确的CEO，但他并没有足够的技术远见，带领OpenAI迈向下一个阶段。

在这篇《GPT-4.5是个空心汉堡》中，马库斯也再次强调：Scaling已经撞墙了。

在GPT-4.5发布前，他就预测将是一场空欢喜，而LLM的纯粹Scaling（无论是增加数据量还是计算）已经撞墙。

在某些方面，GPT-4.5还不如Claude上一个版本的模型。

甚至第一次出现了这种情况：颇受尊敬的AI预测师感到极度失望，以至于推迟了自己对于AGI何时到来的预测时间。

而奥特曼在产品发布上的异常冷静，就更耐人寻味了。

他没有像往常那样大肆宣传AGI，而是承认了大规模模型的成本，却对AGI完全避而不提。

总之，马库斯表示，自己在2024年的预测依然强劲——

耗费五千亿美元后，依然没人找到可行的商业模式，除了英伟达和一些咨询公司之外，没人获得了可观的利益。

没有GPT-5，没有护城河。

「Scaling是一个假设，我们投入了相当于阿波罗计划两倍的资金，但至今并未取得太多实质性成果。」

GPT-4.5：不求最好，但求最贵

总之，从输入价格来看，GPT-4.5可谓是贵到离谱：

o1的5倍
GPT-4o的30倍
o3-mini的68倍
DeepSeek-R1的137倍
DeepSeek-V3的278倍

但正如前文所说，作为「最贵」模型的GPT-4.5，在表现上却不是「最好」的。

跑分一个第1都没有

由知名华裔亿万富翁Alexandr Wang创办的Scale AI，定期会更新一套基于私有数据集的LLM排行榜SEAL，目前首页上共有15个。

然而，在这波最新的排名中，GPT-4.5 Preview竟然没有一项取得第一！

全场最佳成绩，是智能工具使用（Chat）项目的亚军——略强于Claude 3.7 Sonnet，但次于上一代GPT-4o。

接下来，GPT-4.5在EnginmaEval，Agentic Tool Use（Enterprise）两个项目上，取得第3。

其中，前者需要创造性地解决问题和综合不同领域信息的能力；后者评估模型工具使用的熟练程度，特点是需要将多个工具组合在一起。

分别输给了自家的o1/o1-preview和竞争对手最新的Claude 3.7 Sonnet（Thingking）。

在MultiChallenge中，排名第4，输给了o1、Claude 3.5 Sonnet和3.7 Sonnet。

榜单MultiChallenge用于评估LLM与人类用户进行多轮对话的能力，考察LLM的指令保留、用户信息推理记忆、可靠版本编辑和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。

在「人类最后一次考试」中，排在第5。

这次，它不仅输给了Anthropic的Claude，就连Gemini也骑在了它的头上。甚至，还是Flash版本。

顾名思义，这里测试的是LLM推理深度（例如，世界级数学问题）及其学科领域的知识广度，提供对模型能力的精确测量。目前，还没有模型的真确率能达到10%。

千万不要用来编程

根据Aider的LLM编程排行榜，OpenAI旗下AI模型性价比都不高，而GPT-4.5是性价比最差的。

创立AI公司的Enrico则表示，除非你愿意做「冤大头」或「人傻钱多」，否则在编程中不要使用GPT-4.5。

但其实，这些现象或许也在情理之中，毕竟按照OpenAI的说法，这次既不看智商也不看性能，而是强调「啥都懂」和「情商高」。

OpenAI首席研究官：我们还能Scaling！

虽然外面的争论异常激烈，但在OpenAI首席研究官Mark Chen看来，GPT-4.5的发布正是说明模型在规模上的Scaling还没达到极限。

同时，对OpenAI而言，GPT-4.5也是对那些质疑「Scaling模型规模可以继续取得进展」的回应：

「GPT-4.5实实在在地证明了我们可以继续沿用Scaling Law，并且代表着我们已经迈入了下一个数量级的发展阶段。」

预训练和推理，两条路并行

如今，OpenAI正沿着两个不同的维度进行Scaling。

GPT-4.5是团队在无监督学习上最新的扩展实验，与此同时，团队也在推进推理能力的进展。

这两种方法，是相辅相成的：「为了构建推理能力，你首先需要知识基础。模型不能盲目地从零开始学习推理。」

相比起推理模型，拥有更多世界知识的GPT-4.5，在「智能」的体现方式上完全不同。

使用规模更大的语言模型时，虽然需要更多时间处理和思考用户提出的问题，但它依然能够提供及时的反馈。这一点与GPT-4的体验非常相似。而当使用像o1这样的推理模型时，它需要先思考几分钟甚至几分钟，才会作答。

对于不同的场景，你可以选择一个能够立即回应、不需要长时间思考但能给出更优质答案的语言模型；或者选择一个需要一段时间思考后才能给出答案的推理模型。

根据OpenAI的说法，在创意写作等领域，更大规模的传统语言模型，在表现上会显著优于推理模型。

此外，相比于上一代GPT-4o，用户在60%的日常使用场景中也更喜欢GPT-4.5；对于生产力和知识工作，这一比例更是上升到了近70%。

GPT-4.5符合预期，没有特别困难

Mark Chen表示，OpenAI在研究方法上非常严谨，会基于所有之前训练的LLM创建预测，以确定预期的性能表现。

对于GPT-4.5来说，它在传统基准测试上展现出的改进，和GPT-3.5到GPT-4的跃升可以说十分类似。

除此之外，GPT-4.5还具备了很多新的能力。比如制作早期模型都无法完成的——ASCII Art。

值得一提的是，Mark Chen特别指出——GPT-4.5在开发过程中并没有特别困难。

「我们所有基础模型的开发都是实验性的。这通常意味着在某些节点停止，分析发生了什么，然后重新启动运行。这并非GPT-4.5特有的情况，而是OpenAI在开发GPT-4和o系列时都采用的方法。」

参考资料：

https://scale.com/leaderboard

https://x.com/GaryMarcus/status/1895299900952453362

https://x.com/jeremyphoward/status/1895279057614577828

https://the-decoder.com/gpt-4-5-is-proof-that-we-can-continue-the-Scaling-paradigm-says-openais-chief-research-officer/

刚刚，DeepSeek全面开源V3/R1推理系统！成本利润率高达545%

刚刚，DeepSeek全面开源V3/R1推理系统！成本利润率高达545%

新智元 2025-03-01 15:05:48

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

国产机器人深圳街头散步爆火！超自然步态吓呆国外网友

量子位 2025-01-10 16:29:56

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

山石网科发布DeepSeek大模型应用一体机，AI重塑网络安全新格局

山石网科发布DeepSeek大模型应用一体机，AI重塑网络安全新格局

钛媒体APP 2025-03-01 14:22:30

阿里万相秒杀Sora，4070就能跑

阿里万相秒杀Sora，4070就能跑

量子位 2025-02-26 17:08:09

o1竟在用中文思考？网友新发现外网热议

o1竟在用中文思考？网友新发现外网热议

量子位 2025-01-22 11:13:04

Figure机器人化身快递分拣员，自动分拣包裹

Figure机器人化身快递分拣员，自动分拣包裹

量子位 2025-02-27 18:17:50

OpenAI放大招：免费开放ChatGPT搜索，无需注册

OpenAI放大招：免费开放ChatGPT搜索，无需注册

每日经济新闻 2025-02-06 10:49:09

韩国通过卸载键值缓存节约英伟达GPU内存，实现18.95倍解码加速

韩国通过卸载键值缓存节约英伟达GPU内存，实现18.95倍解码加速

DeepTech深科技 2025-02-28 19:31:36

一句话让DeepSeek控制你的电脑！微软开源神器OmniParser V2

一句话让DeepSeek控制你的电脑！微软开源神器OmniParser V2

量子位 2025-02-18 20:48:36

视频大模型三大应用价值，推动电影制作降本增效

视频大模型三大应用价值，推动电影制作降本增效

量子位 2024-12-30 15:49:40

真实数据的还原与多模态融合是To Real面临的很大挑战

真实数据的还原与多模态融合是To Real面临的很大挑战

量子位 2024-12-26 15:27:49

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

量子位 2025-01-10 16:51:31

爆火开源工具Browser Use，能让AI操作浏览器找工作

爆火开源工具Browser Use，能让AI操作浏览器找工作

量子位 2025-01-13 09:50:42

AI鉴别神器来了，几秒内就知是否AI生成

AI鉴别神器来了，几秒内就知是否AI生成

量子位 2025-01-23 19:14:34

To Real面临的挑战：云深处科技李超分享观点

To Real面临的挑战：云深处科技李超分享观点

量子位 2024-12-26 15:37:13

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

量子位 2025-01-02 17:58:49

AI竟会表里不一：人前一套，背后一套！

AI竟会表里不一：人前一套，背后一套！

量子位 2024-12-31 10:12:13

AI暴打验证码，人类遭殃？

量子位 2025-01-02 17:12:56

乌克兰走不走？

闪电制片厂 2025-02-28 20:06:04

台湾海峡是台湾的安全屏障？“护城河”时代已一去不返

台湾海峡是台湾的安全屏障？“护城河”时代已一去不返

邵永灵 2025-02-27 15:14:59

机器突然发生故障，将工人误认成箱子抓了起来！

机器突然发生故障，将工人误认成箱子抓了起来！

星星科普 2025-02-26 20:23:25

10岁小孩哥用deepseek加kimi，3分钟做出一个ppt

10岁小孩哥用deepseek加kimi，3分钟做出一个ppt

小莉帮忙 2025-02-27 17:17:03

男子为女儿买10万元"状元红"保险，想取时却被告知孩子60岁才能提出本金

男子为女儿买10万元"状元红"保险，想取时却被告知孩子60岁才能提出本金

封面新闻 2025-02-28 18:33:44

美乌总统"公开对骂"震动全世界乌克兰人都看哭了

美乌总统"公开对骂"震动全世界乌克兰人都看哭了

澎湃新闻 2025-03-01 14:44:40

1个表情背后能藏一篇文章，emoji让推理模型大翻车

1个表情背后能藏一篇文章，emoji让推理模型大翻车

量子位 2025-02-23 12:06:20

国外小哥毕业后靠ChatGPT自学编程，年入千万

国外小哥毕业后靠ChatGPT自学编程，年入千万

量子位 2025-02-25 12:19:16

奥特曼公开回怼马斯克：他一生缺乏安全感

奥特曼公开回怼马斯克：他一生缺乏安全感

量子位 2025-02-15 12:09:37

DeepSeek开源周回顾：算法榨干硬件爆踩老黄牙膏

DeepSeek开源周回顾：算法榨干硬件爆踩老黄牙膏

量子位 2025-02-28 19:24:13

溜溜球机器人能爬上一座大桥，加州理工新机器人爆火

溜溜球机器人能爬上一座大桥，加州理工新机器人爆火

量子位 2025-01-30 12:21:34

DeepSeek效应初现：Grok-3补刀ChatGPT，OpenAI已在ICU?

DeepSeek效应初现：Grok-3补刀ChatGPT，OpenAI已在ICU?

新智元 2025-03-01 15:05:52

GPT-4.5深陷争议

虎嗅APP 2025-03-01 02:21:09

价格是DeepSeek 277倍！GPT-4.5还是太自信了

价格是DeepSeek 277倍！GPT-4.5还是太自信了

雷科技 2025-02-28 19:31:43

GPT-4.5震撼上线情商逆天！OpenAI最大最贵模型最像人类，奥特曼带娃缺席

GPT-4.5震撼上线情商逆天！OpenAI最大最贵模型最像人类，奥特曼带娃缺席

新智元 2025-02-28 07:01:57

5分钟顶人类8小时！OpenAI Deep Research订阅全推送，端到端强化微调是关键

5分钟顶人类8小时！OpenAI Deep Research订阅全推送，端到端强化微调是关键

新智元 2025-03-01 14:24:05

为了难倒AI，人类想出了什么变态考题？

为了难倒AI，人类想出了什么变态考题？

量子位 2025-02-27 12:11:03

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

机器之心Pro 2025-02-28 21:05:02

MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

机器之心Pro 2025-02-28 18:54:34

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

AI生成视频复刻动作，上传视频+一句话即可

AI生成视频复刻动作，上传视频+一句话即可

量子位 2025-02-04 12:32:15