CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

漫画趣解：一口气搞懂模型蒸馏！

2025-02-13 17:42:29

最近，伴随着DeepSeek的火爆，「模型蒸馏」这个专业名词，也频繁出现在大众视野。

什么是模型蒸馏呢？

“模型蒸馏”就是把大模型学到的本领，用“浓缩”的方式教给小模型的过程，在保证一定精度的同时，大幅降低运算成本和硬件要求。

大模型：像一位见多识广、知识储备庞大的“大教授”，无所不知，但是“供养”他很贵。

不仅培养他的过程很耗时耗力（训练成本高），请他过来讲课成本也很高，要有很大一笔安家费（部署模型的硬件基础设施，甚至数据中心），还要支付超高的课时费（推理成本高）。

小模型：相当于一枚小学生，知识面非常有限，但是胜在没教授那么大谱，给个板凳坐着就够了（部署成本低，推理成本低）。

小模型想要拥有跟大模型完全一样的能力是不现实的，毕竟一分钱一分货。

但是我们可以让大模型教小模型一些基本的解题思路，让学生和老师一样思考问题。

教授会100种解题思路，挑两三种不错的教给小学生，让小学生照葫芦画瓢。

这个解题思路转移的过程，其实就是模型蒸馏。

以DeepSeek发布的六个蒸馏模型为例，满血版671B参数量的DeepSeek R1就是“教授模型”。

而教授模型针对不同尺寸的学生模型进行知识蒸馏，这些学生模型包括↓

看，前几天让大家本地安装的那些模型，其实就是从DeepSeek R1这个老师蒸馏得到的，每个学生都从老师身上学到了些“三脚猫”功夫。

因为学生模型的初始资质不同，所以得到的蒸馏模型能力也不同。

总之，脑容量越大（权重数/参数量），能力就越强，就越接近老师的水平。

那么，模型蒸馏具体是怎么干的呢？

简单说，就是老师做一遍，学生跟着学。

但针对每个输入的问题，老师不会直接给出确定答案，而是给出解题思路（俗称软标签）。

比如，输入一张猫的照片给老师模型，老师不会直接给出答案：这是猫，而是给出一组概率分布，告诉学生，这张图可能是什么。

老师这么干，就是为了让学生具备举一反三、触类旁通的能力，用概率分布来对应各种类别的相似程度。

如果只告诉学生这是猫，学生就不知道它和老虎有多少差别。通过这种有概率分布的软标签，学生就知道了老师是如何判断、如何区分。

接下来，需要建立小模型的学习标准（综合损失函数）。

老师虽然NB，但小模型在学习的时候，并不会完全照搬老师的思路。

它会结合自己原有数据集中的硬标签（猫就是猫、狗就是狗），再参考老师的答案，最终给出自己的判断。

所以，学生模型既要参考“教授给的学习笔记”（软标签），又要结合“妈妈给的判断”（原有监督学习中的硬标签）。

实操中，用“蒸馏损失”来衡量学生模型与教授模型输出结果的差异。用“真实监督损失”来衡量学生模型对基本是非问题的判断。

然后，再设定一个平衡系数（α）来调节这两种损失，达到一个最优效果。

说白了，学生模型要尽量模仿教授模型的行为，蒸馏损失越小越好，但是又不能学傻了，基本的是非问题都答不对。

标准确定后，就可以进入正式的蒸馏训练了。

❶把同一批训练样本分别输入到学生模型和教授模型；
❷根据硬标签和软标签，对比结果，结合权重，得到学生模型最终的损失值；
❸对学生模型进行参数更新，以得到更小的损失值。

不断重复这个过程❶→❷→❸，就相当于反复刷题，每刷一轮，就找找学生答案和老师答案的差距，及时纠正。

经过多轮以后，学生的知识就会越来越扎实。

最终，蒸馏得到的小模型，尽量复制大模型的智慧，同时保持自己身轻如燕的优势。

这样，学生模型就可以作为课代表，独立带班，不需要教授坐镇了。

扩展阅读

一、关于不同的蒸馏路线

前面讲的这种模型蒸馏，只是最常见、最通用的一种方式，叫做知识蒸馏，也叫输出层蒸馏。

相当于老师直接告诉你最后的答案，学生只需要抄作业，模仿老师的答案就行。

这种方式操作起来最简单，即便教师模型不开源，你拿不到教师模型，只要能调用他的API，看到老师的知识输出，就可以模仿他，蒸馏出自己的小模型。

所以，有些模型比如GPT4，是明确声明不允许知识蒸馏的，但只要你能被调用，就没法避免别人偷师。

坊间传闻，业界大模型厂商之间，都存在互相蒸馏的操作，正所谓“互相模仿、共同进步”。

除了输出层蒸馏，还有中间层蒸馏（也叫特征层蒸馏），不仅学到最终判断的结论，还学习老师对图像/文本的内部理解，更深入地继承老师的“知识结构”。

相当于学生不光看老师的最终答案，还要看老师的解题过程或中间步骤，从而更全面地学到思考方法。

但这种蒸馏方案，操作难度较高，通常需要教师模型允许，甚至主动配合，适用定制化的项目合作。

不过现在也可以通过一些手段来获取教师模型的推理轨迹（Reasoning Traces），比如使用特殊构造的提示词来诱导老师逐步返回推理，得到推理轨迹。

同时随着各种推理模型的推出，有些推理模型的API本身就支持返回推理轨迹，比如Google Gemini2.0 Flash，DeepSeek等等。

二、关于蒸馏、微调和RAG

这三种方法，都是优化的大模型的手段，但是实现路径和应用场景不同。

蒸馏：是学生通过模仿老师的解题思路，达到和老师相似的知识水平。

适用于将大模型的能力迁移到小模型上，以适配更低端的算力环境。（比如在企业私有云、个人电脑甚至手机、边缘终端上）

微调：又叫精调，相当于学生意识到自己某门课有短板，然后自己找参考书恶补了一下，从而补上短板。

适用于特定场景下，用特定数据集对通用模型进行小规模训练。比如通用基础模型对医疗不大懂，就用医疗数据集给它开小灶，让他变身医疗专家模型。

RAG：直译过来叫做“检索增强生成”。相当于这题我不会，但是我有“小抄”，我回答的时候，就看一眼小抄，然后再综合我脑子里的已有知识，进行回答。

RAG，不是训练，不改变大模型的“脑回路”，但可以作为外挂，提升大模型回答问题的精准性。适用于企业自身积累了大量知识库文档，通过RAG的方式，与大模型关联。

这样，大模型在回答问题的时候，会先检索知识库，进行精准回答。

三、举两个现实的例子

举个例子，现在特大号公众号后台的自动回复，其实就是腾讯混元大模型，通过RAG的方式，连接了特大号所有的历史文章，作为知识库使用。

当你提问的时候，它就会检索这些历史文章，然后再回答问题。

再举个例子，前几天被热传的李飞飞团队仅花费50美元，就训练出一个比肩ChatGPT o1和DeepSeek R1的模型，其实是一种误读。

李飞飞团队的s1模型，其实是基于通义的开源模型Qwen2.5-32B进行的微调，而微调所用的数据集，其中一部分蒸馏自Google Gemini 2.0 Flash Thinking。

所以，这个模型的诞生，是先通过知识蒸馏，从Gemini API获取推理轨迹和答案，辅助筛选出1000个高质量的数据样本。

然后，再用这个数据集，对通义Qwen2.5-32B进行微调，最终得到性能表现不错的s1模型。

这个微调过程，消耗了50美元的算力费用，但这背后，却是Gemini和Qwen两大模型无法估量的隐形成本。

这就好比，你“偷了”一位名师解题思路，给了一个学霸看，学霸本来就很NB，现在看完“思路”，变得更NB了。

严格来讲，Gemini 2.0作为闭源商业模型，虽然支持获得推理轨迹，但原则上是不允许用作蒸馏的，即便蒸馏出来也不能商用。不过如果仅是发发论文、做做学术研究、博博眼球，倒也无可厚非。

当然，不得不说，李的团队为我们打开了一种思路：我们可以站在巨人的肩膀上，用四两拨千斤的方法，去做一些创新。

比如，DeepSeek是MIT开源授权，代码和权重全开放，而且允许蒸馏（且支持获取推理轨迹）。

那么对于很多中小企业来讲，无异于巨大福利，大家可以轻松通过蒸馏和微调，获得自己的专属模型，还能商用。

GenAI的普惠革命时代，恐怕真的来了。

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

量子位 2024-12-27 15:54:35

多模态版DeepSeek来了，北大出品，可用于机器人控制

多模态版DeepSeek来了，北大出品，可用于机器人控制

智东西 2025-02-13 18:58:49

爆肝整理：超100款DeepSeek应用清单【收藏】

爆肝整理：超100款DeepSeek应用清单【收藏】

智东西 2025-02-12 20:17:45

如何建立自己的知识体系

互联网早读课 2025-02-10 08:08:35

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

机器之心Pro 2025-02-13 16:25:29

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

废弃高架上建房屋，看清眼前一幕彻底傻眼，危险系数达五颗星！

废弃高架上建房屋，看清眼前一幕彻底傻眼，危险系数达五颗星！

哈哈嗝街拍 2025-02-12 09:16:03

生育率全球最低背后，韩国人为什么还疯狂“鸡娃”？

生育率全球最低背后，韩国人为什么还疯狂“鸡娃”？

钛媒体APP 2025-02-12 11:40:14

春晚爆火的机器人被传不再面向个人销售公司辟谣

春晚爆火的机器人被传不再面向个人销售公司辟谣

上游新闻 2025-02-12 22:57:07

AI女神李飞飞：一个底层移民的逆袭

AI女神李飞飞：一个底层移民的逆袭

最华人 2025-02-12 10:46:43

美国邮政船投递邮件，不是每次都能顺利返回，危险系数极高！

美国邮政船投递邮件，不是每次都能顺利返回，危险系数极高！

搞笑柒月 2025-02-13 13:42:18

2月14日精选热点：华为医疗大模型即将发布，这些合作商受益

2月14日精选热点：华为医疗大模型即将发布，这些合作商受益

元芳说投资 2025-02-13 21:17:50

车企火速接入DeepSeek，座舱迈入认知阶段

车企火速接入DeepSeek，座舱迈入认知阶段

亿欧 2025-02-13 20:32:12

看构造感觉设计不合理，不料装修完改变想法，设计师太有才！

看构造感觉设计不合理，不料装修完改变想法，设计师太有才！

奇葩看笑 2025-02-13 09:34:09

老人小区带孩子让孩子独自在后边走，孩子遭电车碾压，画面流出！

老人小区带孩子让孩子独自在后边走，孩子遭电车碾压，画面流出！

爆料视频 2025-02-13 13:23:31

博主用纸片和光影“召唤”哪吒，模型一转，瞬间超帅变身！

博主用纸片和光影“召唤”哪吒，模型一转，瞬间超帅变身！

天希视频 2025-02-12 10:16:03

沙漠里的沙子用不完，为什么不可以用来盖房呢？看完涨知识了

沙漠里的沙子用不完，为什么不可以用来盖房呢？看完涨知识了

悦明讲科技 2025-02-13 08:51:58

催婚催育宣传车停在大街上几名工作人员站在旁边

催婚催育宣传车停在大街上几名工作人员站在旁边

火炼树 2025-02-12 22:00:36

统一的多模态大模型将如何推动AGI时代的到来？

统一的多模态大模型将如何推动AGI时代的到来？

量子位 2024-12-23 13:24:43

车主为了过年审，私自更改轮胎上的参数，办法总比困难多！

车主为了过年审，私自更改轮胎上的参数，办法总比困难多！

呆橘爆笑社 2025-02-12 15:34:23

原来这张图不是陈都灵而是成毅

干了这碗娱乐 2025-02-11 14:37:10

赖岳谦：越南闷声造岛！黄岩岛战略分析！美F22参数造假！

赖岳谦：越南闷声造岛！黄岩岛战略分析！美F22参数造假！

人猿星球观察 2025-02-13 19:54:02

2024年黑龙江大庆中号中考：反比例函数解答题讲解

2024年黑龙江大庆中号中考：反比例函数解答题讲解

老Z讲数学 2025-02-11 11:22:28

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

量子位 2025-02-13 17:11:52

姑娘竟然用模型，控制着道长，真是太不可思议了

姑娘竟然用模型，控制着道长，真是太不可思议了

小妹撩剧 2025-02-09 15:24:35

这条的恐怖系数有点超标了

野原香菜 2025-02-11 11:46:44

北狮主打一个才艺！网友：这难度系数太高了，八个人在这么小的球上

北狮主打一个才艺！网友：这难度系数太高了，八个人在这么小的球上

城市大眼睛 2025-02-12 15:07:24

三星 Galaxy S25 全系确定，这价格是来搞笑的吧

三星 Galaxy S25 全系确定，这价格是来搞笑的吧

刘奔跑 2025-02-11 23:49:44

霰弹枪与霰弹内部结构和构造

疯狂的宠物小二 2025-02-09 13:28:07

DeepSeekR1模型详解-大模型训练为什么需要强化学习？

DeepSeekR1模型详解-大模型训练为什么需要强化学习？

卢菁老师 2025-02-09 08:41:35

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

新智元 2025-02-13 16:14:33

李飞飞巴黎峰会开幕演讲：AI正自我觉醒！马克龙AI换脸现场「整活」

李飞飞巴黎峰会开幕演讲：AI正自我觉醒！马克龙AI换脸现场「整活」

新智元 2025-02-11 19:50:18

李飞飞空间智能交卷：一张图生成交互3D世界

李飞飞空间智能交卷：一张图生成交互3D世界

量子位 2024-12-03 18:35:35

破百亿的哪吒二恐成绝唱，万幸申小豹不是申公豹的儿子

破百亿的哪吒二恐成绝唱，万幸申小豹不是申公豹的儿子

美芳 2025-02-13 21:16:01

也算是参加过百亿项目的了

新浪财经 2025-02-13 21:24:09

中国动画封神之作！《哪吒2》票房破百亿！

中国动画封神之作！《哪吒2》票房破百亿！

品牌头版 2025-02-13 21:33:04

统一的多模态大模型将理解、感知、推理整个世界

统一的多模态大模型将理解、感知、推理整个世界

量子位 2024-12-23 13:09:38

美俄元首通话后欧洲回过味儿了:到头来我们啥也不是

美俄元首通话后欧洲回过味儿了:到头来我们啥也不是

澎湃新闻 2025-02-13 14:13:48

福建现不明飞行物，多名市民拍下其飞行轨迹，漳州市政府工作人员：不清楚

福建现不明飞行物，多名市民拍下其飞行轨迹，漳州市政府工作人员：不清楚

逛吃青岛 2025-02-11 18:44:23

党金虎最牛清台，难度系数满天星，国家队队长实至名归

党金虎最牛清台，难度系数满天星，国家队队长实至名归

啊哒体育 2025-02-11 16:39:44