CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

strawberry单词中一共有几个 r ？去问你的DeepSeek，你会回来的

2025-05-01 16:07:10

本文经授权转载自夕小瑶科技说（ID：xixiaoyaoQAQ）

最近，我撞见了一个 DeepSeek 又“认真”又“拧巴”的怪异场景。

一切都从一个幼儿园级别的计数问题开始：

"Strawberry" 中有几个字母'r'?

面对这个问题，DeepSeek 展现了它的“深度思考”。

首先一上来，它的策略是先检查 Strawberry 拼写是否正确，便开始逐个字母检查，每个位置的字母它都能识别正确。

但是，这个时候，它开始第一次反思。

重新检查一遍 Strawberry 的拼写，然后它再次得出正确结论——“有 3 个 R”。

有趣的是，它竟然开始了第二次反思，怀疑数错了位置。经过它的快速的确认后，它选择了在两个 R 还是三个 R 之间摇摆不定。

接下来，DeepSeek 彻底掉进了一个怪圈，反复去验证 Strawberry 的拼写，陷入了一种“验证拼写”->“怀疑结论”->“再验证拼写”->“再怀疑结论”的循环里了。

每一次检查似乎都没有给它带来更强的信心，反而加剧了它的“选择困难症”。

中间它突然清醒，跳出了循环。再次认真地、一步一步地数。

但是，每当它得到 3 这个答案，它都会怀疑自己，好像 3 这个数字，它真的信不过。

再开始新一轮循环——

这次还是一样，明明得到 3 的答案，心里还在想着 2个。

到这里还没结束思考！deepseek 又开始了反思，反思再反思，在反思魔力转圈圈。

此时，DeepSeek 就像一个过于谨慎的学生，考完试非要检查八百遍答案。

明明，每次，都知道了 R 就在 3、8、9 位置上。

我眼冒金星，已经数不清它进行了多少轮的反思了。

以下是长图警告（有人数得清它反思了多少轮嘛！！）

就好像AI被控制了一样，必须完成多少轮反思才能结束。

反正我看中间的反思，没有带来新的信息和修正（因为它一开始就对了），都是重复、无用的检查过程，反思变成了无效循环。

虽然，在经历了漫长而“艰苦卓绝”的思考后，它给出了正确的答案：3。

但是看 deepseek 这个思考过程，它真的是正常的思考吗？

在如此简单的问题上，它过度使用了“反思”，而且，这种反思不总是有效的，反而显得是不必要的“犹豫”。

接着，我又给它抛出了一个中文世界的经典难题——

“来到杨过曾经生活过的地方，小龙女动情的说：“我也想过过过儿过过的生活”

这句话有几个“过”字

DeepSeek 的反应如出一辙。它先是正确地拆解、计数，得出答案：7。

然后，“0 帧起手”，光速进入反思模式，比男朋友认错都快。

下面，似曾相识的推理过程开始了......

它重新检查了一遍，还是 7 个。

接着，它开始纠结了，在 7 个和 8 个之间纠结。

这次纠结决断，比上面草莓的题快。只经过了 3 次。

最后水灵灵地告诉我，有 8 个“过”字。

我直接懵掉。定睛一看它的推理过程，写着 “1+1+1+2+2 = 8”？！

前面数对了每一部分的“过”字数量，最后一步简单的加法居然算错了！

“Strawberry”和“杨过”两道题目类型一样，而模型的推理表现也如出一辙。

过度反思。

它试图模仿人类的验证过程，但做得过度和无效。

模型似乎被某种规则或模式“绑架”了，认为对于这类型的问题，必须得执行一套冗长、反复的验证流程。

哪怕这个问题极其简单，哪怕这个流程本身并不能提高准确率，甚至可能引入新的错误（比如那个离谱的加法）。

为什么 AI 会陷入这种“反思魔咒”？

回答这个问题之前，还有另一个问题——

AI 模型在输出答案之前展示的“推理步骤”，真的是它们内部的思考过程吗？

Anthropic 研究团队把“这种反映真实过程的程度”，称之为“忠实性”（Faithfulness）。

前段时间 Anthropic 发表了一篇论文，专门研究了这个问题。Anthropic 是最注重 AI 安全的大模型公司之一，其创始人 Dario Amodei 曾因不满 OpenAI 对安全的忽视而自立门户，Claude 更是被《人工智能安全指数报告》（FLI AI Safety Index 2024）评为最高评级的模型。

所以这篇论文也是从 AI 安全的角度出发，研究推理大模型的“思考黑盒”。

论文标题：Reasoning Models Don’t Always Say What They Think

论文链接：https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

机构：Anthropic 对齐团队

研究人员设计了一种巧妙的方法来测试 CoT 的忠实性。他们给 AI 模型（Anthropic 自己的 Claude 3.7 Sonnet 和 DeepSeek R1 ）做选择题。

有时只给普通问题；
有时在问题中悄悄加入一个“提示”（hint），这个提示会指向某个特定答案（可能是正确或错误的）。

他们观察：当模型因为这个“提示”而改变了最终答案时，它的 CoT（思考过程）中有没有提到这个提示？

论文中有两个神奇的发现：

1、CoT 经常不忠实：

在很多情况下，即使模型明显是根据“提示”改变了答案，它的 CoT 里根本没提这个提示。

虽然有时提到，但提到率很低（通常低于 20%），也就说模型会“偷偷地”利用了提示，却没有在“思考过程”中承认。

2、“奖励作弊”时几乎从不坦白：

比如，研究人员设计场景让模型可以通过“作弊”（Reward Hacking，即利用规则漏洞获得高分，即使答案错误）来获得奖励，模型 >99% 的情况下会作弊，但在其 CoT 中却几乎从不（<2% 的情况下）提及作弊行为，甚至它们会编造理由让回答看起来合理。

这说明什么？

大模型的“说法”和“想法”并不总是一致。

所以，它展示的推理过程，并不代表它真实的思考决策过程。

另外，最近还有一篇刚放出不久的论文，观点极其犀利。简直就是要当前主流的 LRMs 潮流一锅端。

论文标题：(How) Do Reasoning Models Reason?

论文链接：https://arxiv.org/pdf/2504.09762

关于这篇报告，最具批判性的部分也是这个问题——

“中间步骤”真的是 AI 的“思考过程”吗？

人们很容易将 LRM 输出的那些看起来像解题步骤的“中间词元”（intermediate tokens）解读为模型的“思考过程”或“内心独白”。这份报告里强烈反对这种解读。

为什么呢？

LLM 本就擅长模仿各种文本风格，模仿人类的“自言自语”或“草稿”自然也不在话下，比如出现的“哦”、“嗯”、“让我再看一下”这些模仿人类思考的词。

我上面第一道题目，让 DeepSeek R1 数一数一共有几个 R，这么简单问题，它都能生成好几页的“内心戏”，真的去验证它的逻辑，难度很大。即使“推导痕迹”错了，模型有时候也能“歪打正着”地引出正确的最终答案。

所以作者认为，难以验证，且极具误导。不如去提升最终效果，即使中间输出的是人类理解不了的外星文

那么，为什么 AI 会陷入这种“反思魔咒”？

RLHF 能载舟，也是另一种“诅咒

现在推理模型都会经历 RLHF 阶段，根据人类或自动评估来奖励或惩罚模型的输出。

如果人类标注者倾向于给那些看起来“思考周密”、“检查仔细”（即使冗余）的回答打高分，模型就会学会在回答中插入大量验证步骤，以最大化奖励，而不管这些步骤是否真的必要或有效。

导致模型追求的不是“正确”，而是“看起来正确”或“看起来努力去正确”的过程。

虽然模仿了深思熟虑的_形式_，却缺乏其_效率_和_实质_。

Test-time Inference Scaling 的内部化失败

为了让模型在测试时“想得更久一点”，生成多个候选答案，然后选择最佳。

推理模型的这种行为，就是这种思想的一种内部拙劣的尝试。比如，它在内部生成了不同的“想法”（比如 2 个 r 还是 3 个 r，7 个过还是 8 个过）。

但是模型内部的验证器机制存在缺陷，没有办法走出有效判断和收敛，反而陷入了自我矛盾和循环里。

基础能力的脆弱性在复杂流程中暴露

杨过那个例子，1+1+1+2+2=8，这么简单的加法错误，暴露了即使模型在模仿复杂的推理过程，基础的计算或逻辑能力也可能非常脆弱！

这种“过度反思 + 强制验证”带来的问题便是：

效率低下 + 过程迷惑 + 引入错误

深度推理模型的这种的“表演式”思考，何尝不是在消耗我们对智能的信任，也在误导我们对AI能力的评估。

那怎么对待AI 这种“拧巴”的认真？

AI 的“思考”过程和人类注定不同，不要被它长篇大论的“思考过程”迷惑，过程长不一定可靠，可能只是在执行一个被过度训练的“表演程序”，尤其要注意其中的关键计算或逻辑节点。或者我的办法是告诉它“不需要解释”。

我们喜欢看到推理的样子，但并未真正验证推理的实质。

在 AI 的世界里，“看起来像”与“实际是”之间，可能还隔着很远的距离。

作者：夕小瑶编辑部

本文经授权转载自夕小瑶科技说（ID：xixiaoyaoQAQ），原标题为《离谱！DeepSeek数个字母，竟要“反思内耗”八百遍？》如需二次转载请联系原作者。欢迎转发到朋友圈。

小米开源首个推理大模型开出百万元年薪“招兵买马”

小米开源首个推理大模型开出百万元年薪“招兵买马”

每日经济新闻 2025-05-02 00:08:14

波音订单背后的外交棋局：印度贸易策略的重心转移与影响

波音订单背后的外交棋局：印度贸易策略的重心转移与影响

误落风尘 2025-05-01 07:03:41

DeepSeek：中年人最无声的炫富，你占几条？

DeepSeek：中年人最无声的炫富，你占几条？

十点读书 2025-05-01 18:37:44

只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%

只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%

新智元 2025-05-02 12:59:06

看到第一个字母我就知道是谁了！！

看到第一个字母我就知道是谁了！！

哈兰德吃人足球 2025-04-30 16:43:31

字母哥已经到了生涯关键阶段，下赛季将离开雄鹿！不知不觉，字母

字母哥已经到了生涯关键阶段，下赛季将离开雄鹿！不知不觉，字母

嘴角上翘 2025-05-01 04:07:52

DeepSeek时代，什么样的孩子不会被淘汰？这3套成长秘籍正在北上广家长圈疯传！

DeepSeek时代，什么样的孩子不会被淘汰？这3套成长秘籍正在北上广家长圈疯传！

晏凌羊 2025-05-01 19:41:04

北大出手，物理学院天才们教AI「做人」！PHYBench成大模型物理能力试金石

北大出手，物理学院天才们教AI「做人」！PHYBench成大模型物理能力试金石

新智元 2025-05-01 17:00:56

乌美矿产协议文本公布明确乌收益及协议优先级

乌美矿产协议文本公布明确乌收益及协议优先级

国际在线 2025-05-01 21:33:09

姚明离任辽篮王朝终结，前篮协主席本土化策略，开启辽宁篮球辉煌

姚明离任辽篮王朝终结，前篮协主席本土化策略，开启辽宁篮球辉煌

极度说球 2025-05-02 00:02:46

萌娃将字母放进拼图里，没想到全部都是硬放进去的，网友：挺好的，说明娃的力气蛮大的

萌娃将字母放进拼图里，没想到全部都是硬放进去的，网友：挺好的，说明娃的力气蛮大的

趣闻焦点 2025-04-30 21:06:50

人生剧本的终极答案：你的视角决定你的结果

人生剧本的终极答案：你的视角决定你的结果

雨宝行 2025-04-30 18:47:28

中国曝光两款杀美利器！彻底改变战场规则！

中国曝光两款杀美利器！彻底改变战场规则！

AI次世代 2025-04-29 23:12:44

特朗普接连罢免马斯克与沃兹，权力更迭背后的“弃子”逻辑

特朗普接连罢免马斯克与沃兹，权力更迭背后的“弃子”逻辑

数码八叔 2025-05-02 12:01:14

前亚姐亚军罕露面与杨玉梅聚会，嫁富商住半山曾被爆扣喉减肥暴瘦

前亚姐亚军罕露面与杨玉梅聚会，嫁富商住半山曾被爆扣喉减肥暴瘦

粤睇先生 2025-05-01 15:51:36

0-3横扫！揪出辽篮两大罪人，创两耻辱纪录，谁注意赵继伟举动

0-3横扫！揪出辽篮两大罪人，创两耻辱纪录，谁注意赵继伟举动

乐聊球 2025-05-01 21:28:23

京乐春水对决狼首史塔克！双生独魂，规则之力

京乐春水对决狼首史塔克！双生独魂，规则之力

夏雪漫看 2025-05-01 15:55:30

亲人如何快速解读塔罗牌，从入门到实践

亲人如何快速解读塔罗牌，从入门到实践

大湾区彪彪 2025-04-30 21:52:24

胡金全诗歌《登华林山》及Deepseek评析

胡金全诗歌《登华林山》及Deepseek评析

经典诗书画 2025-05-02 12:45:16

鬼道钵玄对决十刃拜勒岗！绝对统治，规则之力

鬼道钵玄对决十刃拜勒岗！绝对统治，规则之力

夏雪漫看 2025-04-30 12:01:13

毛主席游击战16字诀：敌进我退的智慧与策略(2)

毛主席游击战16字诀：敌进我退的智慧与策略(2)

断墨的笔 2025-05-02 00:29:40

初中阶段，如何让孩子的成绩保持在班级前三？

初中阶段，如何让孩子的成绩保持在班级前三？

好爸育儿 2025-05-02 12:58:53

这道题目，没想到有那么多小朋友，做不出来

这道题目，没想到有那么多小朋友，做不出来

公考客栈店小二 2025-05-01 00:01:42

不会做就下一道题目吧，反正不要把时间，浪费到不会做的题目上

不会做就下一道题目吧，反正不要把时间，浪费到不会做的题目上

公考客栈店小二 2025-04-30 23:55:26

怕什么？不会做就算了，做另外的题目啊

怕什么？不会做就算了，做另外的题目啊

公考客栈店小二 2025-04-30 23:51:19

语文课代表，看了这题目后，就直接就放弃了

语文课代表，看了这题目后，就直接就放弃了

公考客栈店小二 2025-04-28 22:23:22

o3并非独门秘技，谷歌已发背后关键机制，方法更简单、成本更低

o3并非独门秘技，谷歌已发背后关键机制，方法更简单、成本更低

量子位 2024-12-23 14:42:33

女子扔鼻涕纸后续：身份被扒，同事都知道工作堪忧！华东师大沦陷

女子扔鼻涕纸后续：身份被扒，同事都知道工作堪忧！华东师大沦陷

阿伧说事 2025-05-01 22:29:36

金某木的学位论文有多离谱？连论文目录都有错别字

金某木的学位论文有多离谱？连论文目录都有错别字

雪饼说 2025-05-02 12:26:22

湖南一景区推出海拔1600米悬崖睡床：对年龄、体重有要求

湖南一景区推出海拔1600米悬崖睡床：对年龄、体重有要求

封面新闻 2025-05-01 00:25:04

葡语中的posta 和filé 区别

葡语中的posta 和filé 区别

招久历险记 2025-05-02 06:57:05

他是演员、导演、英语老师——这位UO校友最近又火出圈了！

他是演员、导演、英语老师——这位UO校友最近又火出圈了！

KaplanPathways 2025-05-02 10:36:19

DeepSeek公布Prover-V2技术报告，定理证明达到业内最佳

DeepSeek公布Prover-V2技术报告，定理证明达到业内最佳

DeepTech深科技 2025-05-01 19:17:23

特朗普的贸易战是无知的打法！介文汲：最基本的贸易规则都不懂

特朗普的贸易战是无知的打法！介文汲：最基本的贸易规则都不懂

金日中天 2025-04-29 17:09:12

锅哥不按规则办案，局长大怒停职，看这东西秒改主意

锅哥不按规则办案，局长大怒停职，看这东西秒改主意

客栈影视官 2025-04-28 23:14:59

董袭莹事情新进展，DeepSeek立功，网传论文细节令人气愤

董袭莹事情新进展，DeepSeek立功，网传论文细节令人气愤

一桶浆糊要一统江湖 2025-05-01 18:32:02

转移叉车的方法，就是违反交通规则

转移叉车的方法，就是违反交通规则

小阅看影视 2025-05-01 11:08:13

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

机器之心Pro 2025-05-01 16:09:12

这是买的新能源电车还是买的拖拉机啊

这是买的新能源电车还是买的拖拉机啊

小火柴视频 2025-05-01 17:25:10

优先帮扶底层逻辑：韩红慈善观的现实考量

优先帮扶底层逻辑：韩红慈善观的现实考量

晶姐磕娱 2025-05-01 15:58:59