CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

DeepSeek是新源神！推理模型o1性能1/50价格，微调蒸馏商用全免费

2025-01-21 11:06:58

梦晨发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek新发布远超预期，Reddit/狂暴刷屏中。

这次大事共有3件：

开源DeepSeek-R1推理大模型，与o1性能相近。
开源DeepSeek-R1-Zero，预训练模型直接RL，不走SFT，堪称语言模型的AlphaZero。
开源用R1数据蒸馏的Qwen、Llama系列小模型，在某些任务上直接超过GPT-4o。

同时开放官方API，输入token（命中缓存）价格只有OpenAI o1的1/50，未命中缓存以及输出token价格约1/27。

论文中被反复热议的小细节就更多了：

R1-Zero模型在思考过程中涌现了“顿悟时刻”（aha moment），并自己学会为问题分配更多思考时间。

网友们开始推演接下来的剧情，如果顿悟的力量能被稳定利用……那就不知道会通向何处了。

再有，目前社区猜测OpenAI的o1-pro/o3可能使用了tree-of-agents方法，许多个o1的分身各自回答问题，再通过某种方式选出最优答案。

如果将DeepSeek-R1与Search-o1和Tree-of-Agents（大约50个智能体）结合起来，可以很小的成本获得与o3类似的性能，最终可能便宜数百倍。

这次DeepSeek总共开源6个在R1数据上蒸馏的小模型，其中蒸馏版Qwen-1.5B都能在部分任务上超过GPT-4o。

DeepSeek还特别更新了开源许可证，现在是MIT Lisence。

R1是开源的，R1数据想跑多少有多少，API可以用于蒸馏和微调，商用是免费的。

新的源神出现了！

DeepSeek新发布

OpenAI的o1系列模型率先引入了推理时扩展（inference-time scaling）的概念，通过增加思维链（Chain-of-Thought）推理过程的长度，在数学、编程、科学推理等任务上取得了显著的性能提升。

先前的研究探索了基于过程的奖励模型、强化学习、蒙特卡洛树搜索和束搜索等方法，但尚未有方法在通用推理性能上达到o1系列模型的水平。

DeepSeek-R1-Zero

DeepSeek团队迈出了利用纯强化学习提升语言模型推理能力的第一步。

他们的目标是探索大模型在没有任何监督数据的情况下，通过纯强化学习过程进行自我进化，从而获得推理能力。

具体而言，他们使用DeepSeek-V3-Base作为基础模型，并采用GRPO（Group Relative Policy Optimization）作为强化学习框架来提高模型在推理任务上的表现。

在训练过程中，DeepSeek-R1-Zero自然而然地涌现出许多强大而有趣的推理行为。

经过数千步的强化学习，DeepSeek-R1-Zero在推理基准测试中表现出色。

例如，它在AIME 2024上的pass@1得分从15.6%提高到71.0%，并且通过多数投票，得分进一步提高到86.7%，与OpenAI-o1-0912的表现相当。

DeepSeek-R1

然而，DeepSeek-R1-Zero也面临着可读性差、语言混杂等挑战。

为了解决这些问题并进一步提高推理性能，团队提出了DeepSeek-R1，它结合了少量冷启动数据和多阶段训练流程。

具体而言，他们首先收集数千条冷启动数据来微调DeepSeek-V3-Base模型。随后，他们进行了类似DeepSeek-R1-Zero的面向推理的强化学习。

当接近强化学习过程的收敛时，他们通过在强化学习检查点上进行拒绝采样，结合来自DeepSeek-V3在写作、事实型问答、自我认知等领域的监督数据，创建新的SFT数据，然后重新训练DeepSeek-V3-Base模型。

使用新数据进行微调后，该检查点还经历了一个额外的强化学习过程，考虑到所有场景下的提示。

经过这些步骤，他们获得了一个称为DeepSeek-R1的检查点，其性能与OpenAI-o1-1217不相上下。

R1数据蒸馏模型

DeepSeek团队进一步探索了从DeepSeek-R1蒸馏到更小的密集模型。使用Qwen2.5-32B作为基础模型，直接从DeepSeek-R1蒸馏的效果优于在其上应用强化学习。

这表明，更大的基础模型发现的推理模式对于提高推理能力至关重要。

他们开源了蒸馏的Qwen和Llama系列模型。值得注意的是，他们的蒸馏14B模型在推理基准测试中大幅超过了当前最先进的开源QwQ-32B-Preview，而蒸馏的32B和70B模型在密集模型中树立了新的推理任务基准。

最后，团队还把在实验过程中很多失败的尝试分享出来，防止后人踩坑。

在过程奖励模型、蒙特卡洛树搜索算法上，DeepSeek都没能获得进展。

不过他们也强调，只是他们失败了，并不意味着这些方法无法开发出有效的推理模型。

未来他们计划在以下方向继续投入研究：提升通用能力、解决语言混杂问题、优化提示词敏感问题，以及改进软件工程任务的性能。

One More Thing

还有英语母语者挑起了论文中的遣词造句，认为很可能是大模型帮团队撰写的论文。

同时很多人注意到，在DeepSeek的许多论文里，“DeepSeek-AI”都出现在作者列表的第一位。

论文地址：
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

参考链接：
[1]https://x.com/deepseek_ai/status/1881318130334814301
[2]https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/

大模型可视化工具爆火，GPT推理过程一目了然

大模型可视化工具爆火，GPT推理过程一目了然

量子位 2024-11-18 15:41:30

真实数据的还原与多模态融合是To Real面临的很大挑战

真实数据的还原与多模态融合是To Real面临的很大挑战

量子位 2024-12-26 15:27:49

数据整合与应用是具身智能走向产业的关键

数据整合与应用是具身智能走向产业的关键

量子位 2024-12-26 14:38:20

乌克兰马达西奇工厂再遭重创，现场人员狂奔逃命

乌克兰马达西奇工厂再遭重创，现场人员狂奔逃命

大象新闻 2025-01-21 09:28:12

抢票软件到底好不好用？加速包真好使吗？这些风险要留意

抢票软件到底好不好用？加速包真好使吗？这些风险要留意

热心市民行行 2025-01-21 13:08:26

一份民调数据出炉，特朗普将轻松拿下格兰陵岛？不听话就重拳伺候

一份民调数据出炉，特朗普将轻松拿下格兰陵岛？不听话就重拳伺候

文理TALK 2025-01-19 10:00:00

就很离谱！宝骏新能源车刹车失灵：刹车靠软件控制完全是走火入魔

就很离谱！宝骏新能源车刹车失灵：刹车靠软件控制完全是走火入魔

大风文字 2025-01-19 18:23:37

小红书推出了翻译功能，堪称梗百科

小红书推出了翻译功能，堪称梗百科

爱范儿 2025-01-21 14:12:37

男子吐槽三折叠手机：用了一个月现在只有一折显示了

男子吐槽三折叠手机：用了一个月现在只有一折显示了

青蛙视频 2025-01-20 15:05:52

大模型商用格局雏形初现：Tokens用量决高下，火山引擎问鼎2024

大模型商用格局雏形初现：Tokens用量决高下，火山引擎问鼎2024

量子位 2025-01-21 18:04:42

象棋软件大战，弃子惊魂强行求变

象棋软件大战，弃子惊魂强行求变

宁哥视界 2025-01-20 09:59:31

单身小伙恶搞，随机霍霍一只小猫，事实证明猫也会推理！

单身小伙恶搞，随机霍霍一只小猫，事实证明猫也会推理！

兜蔸街拍 2025-01-18 08:47:10

这盘棋引起王天一被质疑软件作弊，这么简单的残棋都不认识！

这盘棋引起王天一被质疑软件作弊，这么简单的残棋都不认识！

小脚老奶张老揣 2025-01-17 09:49:33

幻方梁文锋刷屏，参加首场总理座谈会，他谈了什么？

幻方梁文锋刷屏，参加首场总理座谈会，他谈了什么？

财联社 2025-01-21 15:31:07

过宫炮神局，就连软件也打出了满分，太精彩了

过宫炮神局，就连软件也打出了满分，太精彩了

阿静爱探索 2025-01-20 11:07:08

90岁姥爷自学两天手机软件，教外孙女把胶卷底片变成清晰照片，网友：90岁正是闯的年纪

90岁姥爷自学两天手机软件，教外孙女把胶卷底片变成清晰照片，网友：90岁正是闯的年纪

重庆头条官方 2025-01-20 11:08:14

女子去银行取钱发现存款不见了坐在凳子上失声痛哭

女子去银行取钱发现存款不见了坐在凳子上失声痛哭

爆料视频 2025-01-21 08:09:15

知名机构被曝跑路！沈阳门店已关闭！

知名机构被曝跑路！沈阳门店已关闭！

沈阳公交网小林 2025-01-21 00:10:21

只能说发晚了，但是不可能今天没有

只能说发晚了，但是不可能今天没有

七喜追剧 2025-01-20 22:44:17

凌晨的中国街才更可怕，比经济数据更真实

凌晨的中国街才更可怕，比经济数据更真实

木木奇闻视界 2025-01-20 07:53:31

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

选择/杂交/突变，DeepMind将自然选择引入LLM思维，实现心智进化

选择/杂交/突变，DeepMind将自然选择引入LLM思维，实现心智进化

机器之心Pro 2025-01-21 18:27:20

俄军铠甲防空导弹发射拦截乌军无人机却摧毁斯摩棱斯克一住宅

俄军铠甲防空导弹发射拦截乌军无人机却摧毁斯摩棱斯克一住宅

军武大狼 2025-01-21 14:30:17

国内大学教授疑似犯低级错误，将抽象翻译成“抽水大象”，成为国际笑柄

国内大学教授疑似犯低级错误，将抽象翻译成“抽水大象”，成为国际笑柄

小萝卜丝 2025-01-20 20:28:19

智能助手+数据工厂+API，助力超10000家客户订货自动化 | 创新场景

智能助手+数据工厂+API，助力超10000家客户订货自动化 | 创新场景

钛媒体APP 2024-08-14 15:17:27

河北越野车主沙河溺亡，老婆怀孕快生了，家里富裕，水深5米左右

河北越野车主沙河溺亡，老婆怀孕快生了，家里富裕，水深5米左右

水晶的视界 2025-01-21 05:13:20

美国美女知道恢复了这软件，瞬间变成了这样，特朗普也算做了好事

美国美女知道恢复了这软件，瞬间变成了这样，特朗普也算做了好事

星夜生活说 2025-01-21 17:12:05

北大研发多模式忆阻器，助力实现大规模可重构视觉计算硬件系统

北大研发多模式忆阻器，助力实现大规模可重构视觉计算硬件系统

DeepTech深科技 2025-01-21 16:38:39

今日谈丨别拿“算法”说事

蓝睛 2025-01-20 18:57:19

“真后悔让孩子死读书”，郑州网约车师傅如是说

“真后悔让孩子死读书”，郑州网约车师傅如是说

萌芽研究所BUD 2025-01-19 23:17:16

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

新智元 2025-01-21 12:33:40

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

机器之心Pro 2024-11-29 15:13:38

用AI自动设计智能体，数学提分25.9%，远超手工设计

用AI自动设计智能体，数学提分25.9%，远超手工设计

机器之心Pro 2024-08-23 10:40:17

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

机器之心Pro 2025-01-21 11:41:31

o3被曝成绩「造假」，60多位数学泰斗集体被耍！OpenAI暗中操控，考卷提前看光

o3被曝成绩「造假」，60多位数学泰斗集体被耍！OpenAI暗中操控，考卷提前看光

新智元 2025-01-20 11:40:28

Anthropic创始人眼中的AI智能体进化：工具、上下文、代码与安全

Anthropic创始人眼中的AI智能体进化：工具、上下文、代码与安全

DeepTech深科技 2025-01-19 20:36:07

AI智能体2小时击败人类，引爆贝叶斯推理革命！仅用10%数据训练秒杀大模型

AI智能体2小时击败人类，引爆贝叶斯推理革命！仅用10%数据训练秒杀大模型

新智元 2025-01-21 13:11:51

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

国产灵巧手卷出千元级！来自深圳，轻松拿捏鸡蛋豆腐

国产灵巧手卷出千元级！来自深圳，轻松拿捏鸡蛋豆腐

智东西 2025-01-21 15:48:25

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40