朋友们

都2025年了

还有很多人弄不清大模型里的一些基础概念

到底什么是蒸馏什么预训练什么是token?

今天指北决定做一期

用动画《哪吒之魔童闹海》来一口气搞懂这些概念!

0

1

基座模型:

哪吒的原始魔丸之力


魔丸是天生的混沌能量,强大但难以控制,如同基座模型拥有海量知识和通用能力,但直接使用可能产生不稳定或不符合预期的结果

它是哪吒能力的核心来源,类似基座模型通过预训练学习通用语言理解能力,但需要被“驯化”才能安全应用。

02

智能体:

乾坤圈限制下的哪吒 + 太乙真人的法宝


哪吒通过乾坤圈压制魔性,智能体通过提示工程引导基座模型的输出,或通过微调进一步约束其行为,并借助混天绫、火尖枪等法宝(对应外部工具/API)实现具体目标(如降妖、救人)。

智能体像哪吒一样,在基座模型的基础上,通过任务导向的优化(如对抗天劫的使命)和工具扩展(如调用搜索引擎、代码解释器),成为能解决实际问题的“可控形态”。

03

预训练:

哪吒修炼基本功


预训练是什么?

预训练就是让AI大模型通过阅读海量文本,掌握基础的语言能力和世界知识。

大模型的预训练阶段,就如同哪吒的童年修炼期。模型被“喂食”互联网上的海量文本,从百科到小说,从科学论文到社交媒体帖子,应有尽有。通过这个过程,模型逐渐掌握了:

语言结构:就像哪吒学会了基本的拳脚功夫

常识知识:相当于哪吒了解了人间的风俗人情

推理能力:好比哪吒学会了如何在战斗中临机应变

预训练结束后的大模型,就如同初步修炼成功的哪吒,有了基础能力,但还需要进一步的“微调”才能适应特定任务。

0

4

微调(Fine-tuning):

哪吒大战某妖族前的专项训练


当哪吒需要对抗龙王时,他会针对性地强化与水有关的法术,这就像大模型的微调过程。

微调是在预训练基础上,使用特定领域的数据进一步训练模型,使其在特定任务上表现更好。

比如,一个通用大模型经过医学数据微调后,会在医疗问答上表现更出色。

就像哪吒在与龙族对抗前,会更专注练习水下作战技能。

05

人工监督强化学习 (RLHF):

如同太乙真人指导哪吒驾驭混元珠的力量


人工监督强化学习,就像哪吒需要在太乙真人的指导下学会控制体内混元珠的力量。哪吒初生时具有强大但难以控制的能力,这就像大模型在预训练后拥有庞大知识但缺乏对齐。

太乙真人给哪吒施加乾坤圈和混天绫,通过奖惩机制引导他的行为。这就像RLHF流程中,人类标注者对模型输出进行评估,建立奖励模型来指导AI“什么是好的回答”。

当哪吒在闹海宫犯下错误后,太乙真人不仅惩罚他,还教导他正确的力量运用方法。类似地,RLHF不只是惩罚模型的不良输出,还通过强化学习算法引导模型产生更符合人类期望的回应。

06

Token:

如同陈塘关的砖瓦与木材


Token是什么?Token是大模型处理文本的最小单位,类似于语言的“积木”。模型不理解整句话,而是将文本拆分成这些基本单位来处理。

陈塘关的建筑材料:想象陈塘关是用无数砖瓦、木材等基础材料搭建起来的。一块砖看似简单,但它是构成整个城墙的基础;一根木梁不起眼,却是支撑房屋的关键。同样,Token就是构建语言世界的基础材料。

当你输入“哪吒闹海”这个短语时,模型会将它分解成更小的单位。在中文中,可能是单个字符;在英文中,可能是单词或单词的一部分。比如"playing"可能被分解为"play"和"ing"两个Token。

每个大模型都有Token上限,就像陈塘关的城墙只能用有限数量的砖块建造。常见的大模型一次能处理几千到几万个Token,超过这个数量,前面的内容就会被“遗忘”。

07

涌现能力(Emergent Abilities):

如同哪吒的突破修为


哪吒经过不断修炼,某一天突然顿悟,获得了远超以往的能力,这就像大模型的涌现能力——当模型规模达到某个临界点时,突然展现出之前从未明确训练过的新能力。

例如,GPT-3在达到一定规模后,突然能够进行少样本学习和元学习,而这些能力在小规模模型中几乎不存在。这种质变让研究人员感到惊讶,因为这些能力并非刻意训练的结果,而是随着规模增长自然“涌现”的。

就像哪吒在度过某个瓶颈期后,不仅法力增强,还领悟了全新的神通,是量变引发的质变。

08

数据蒸馏(Knowledge Distillation):

哪吒获得李靖和太乙真人的精华传承


数据蒸馏是将大型复杂模型(教师模型)的知识转移到更小、更高效模型(学生模型)的过程。这就像哪吒从父亲李靖和师父太乙真人那里获得精华传承,但以更为精简的方式。

太乙真人可能修炼数千年积累了海量道法,但他不会把全部都教给哪吒,而是提炼出精华,传授给哪吒最有用、最精华的部分。同样,数据蒸馏也是将大模型的“智慧”提炼后传给小模型。

数据蒸馏的优势在于,学生模型虽然规模小、参数少,但能够获得接近教师模型的性能,同时计算效率更高。就像哪吒虽然年龄小、修为尚浅,但通过获取精华传承,能够发挥出与成年修士相比拟的战力。

09

引用幻觉(Citation Hallucination):

如同哪吒的虚构战绩


有时哪吒可能会夸大自己的战绩,声称“我曾用乾坤圈打败过东海龙王三太子”,即使根本没发生过。大模型也存在类似行为,它们会生成看似可信的引用和来源,但实际上这些引用可能是编造的。

例如,模型可能会引用“《人工智能研究前沿》(2023)中Smith等人的研究表明...”,但实际上这篇论文可能根本不存在。这种特定类型的幻觉被称为引用幻觉,是大模型的一个常见问题。

与哪吒虚构战绩一样,这些编造的引用看起来很专业,很容易误导用户相信其真实性。

10

上下文窗口(Context Window):

如同哪吒的视界范围


哪吒在战斗时,能够感知的范围有限,超出视界范围的敌人或事物他就无法察觉与应对。大模型的上下文窗口就像哪吒的视界范围,决定了一次能“看到”多少内容。

早期模型如GPT-3的上下文窗口只有4K tokens,就像哪吒初期法力有限,只能观察到附近的敌情。而现代模型拥有更长的上下文窗口,就如同修为大增后的哪吒,能够俯瞰整个东海龙宫了。

当我们与大模型对话太长,超出上下文窗口,模型就会“遗忘”早期的对话内容,就像哪吒在长时间激烈战斗后,可能会忘记战斗初期的细节。

前面的还是有看不懂的没有关系,

这里有个更简单的版本——

大模型的成长历程就像是哪吒的修炼之路,

从预训练获得基础能力形成基座模型,就像哪吒体内的原始魔丸之力;

通过微调适应特定领域,犹如哪吒针对性修炼;

RLHF如太乙真人的指导,教会模型产生符合人类期望的回应;

当达到临界点,产生涌现能力,宛如哪吒突破修为;

数据蒸馏则将大模型知识传给小模型,如同传授精华道法;

模型受上下文窗口限制处理信息,类似哪吒的视界范围;

最终通过约束与工具扩展,成为能解决实际问题的智能体,

如同被乾坤圈限制且配备法宝的哪吒。

从混沌能量到可控战力,大模型就像哪吒一样,炼成出来闹海了!

报名开启|西二旗指北x扣子邀你参与扣子 AI 工坊硬件场四城联动

活动时间:2025年3月22日14:00-17:00

活动地点:北京、深圳、杭州、成都

更多硬件: AI + 开发板、音响、鱼缸、摄像头、玩具、天文望远镜...AI 硬件最佳实践分享来啦!

更多插件 & 模型:DeepSeek 等各种模型,音乐助手等最新插件,匹配更多真实场景!

更大范围:10+硬件合作伙伴、AI/硬件社区、800+AI 开发者,在实验室体验硬件全链路开发过程、最新 AI 硬件成果展示交流!

扫描下面二维码进行活动报名,现场还有机械键盘、最新 AI 硬件、扣子周边等奖品等你拿!

(大家记得在对应的第14题处填写“西二旗指北”,可以优先通过,更方便我们在线下对你进行服务~)

另外,

西二旗指北社群

今天新建了一个AI硬件交流

里面都是AI行业大佬和从业者

快进来讨论!

扫码发送关键词:AI硬件

小助手马上拉你入群!

本文系“西二旗生活指北”原创

转载请标明出处

部分内容由AI生成

制作:编辑部

微博:西二旗生活指北

ad1 webp
ad2 webp
ad1 webp
ad2 webp