他们正在打样「榨干」有限算力的极致解法。
作者丨朱可轩
编辑丨陈彩娴
大模型赛跑两年后,玩家已逐步分化为三种趋势:一类玩家仍追随 OpenAI 的脚步卷大参数基座模型,另外一类烧不起钱的玩家转头拥抱应用端,而第三类则自始至终都在摸索如何更高效打造出性能更优的模型。
目前,第一类卷向大参数的玩家也都在寻找高效解决方案,连 OpenAI 此前发布 GPT-4o mini 切入小模型市场,Meta Llama 3.1-8B、微软 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是头部玩家在做的布局。
算力存在上限已是不争的事实,而且也并非参数越大就意味着效果一定能达到预期,更何况,如若如果每增长一倍参数规模,效果能力却并未呈一倍增长,大模型发展起来会很慢:
OpenAI 能用百千亿达到 GPT-4 的水平,其他家则可能需要投入更多资源,如此一来要追赶 GPT-5 会更难,因为在 OpenAI 的基础上再加码更多算力、参数的可能性不大,这对于大多数无法如同 OpenAI 一般大把烧钱的玩家而言并非理智选择。
所以可以看到,现如今已有不少玩家选择投身应用端,不再执着于基座大模型。而继续坚持的玩家们,则在思考如何基于有限的资源,将每个参数的作用发挥到极致,这才是多数人一致看好的大模型训练最终方向。不过,现阶段,模型参数的能力上限还远未完全探索到。
沿着这一思路,国内创业队伍中,面壁和 DeepSeek 凭借高效且开源的模型迅速引发广泛关注,并在海外社区得到高度评价,经济学人也曾将他们并称为中国最具创新能力的大模型公司。
当前,在国内大模型创业玩家队伍里,除了受到热捧的六小龙外,面壁和 DeepSeek 这两只潜力股也已先后加入战局,大模型明显呈现出“6+2”格局。
国内每有创新定会在海外先掀起风浪:DeepSeek 在去年发布 DeepSeek-V2 模型因“白菜价”一举成名后,其近期新发布的 V3 模型则收到了硅谷大佬的一致惊叹,而面壁此前则曾因 MiniCPM-Llama3-V 2.5 模型被硅谷团队套壳抄袭一事引发热议,后续其也因另辟蹊径聚焦端侧而得到业内密切关注。
海内外科技圈对二者技术实力的认可能够可见一斑,值得一提的是,他们背后的团队也均来自清北高校,面壁的核心成员大多来自清华 NLP 实验室,DeepSeek 也偏爱吸纳年轻的清北应届人才。
不过,除前所述,双方的差异也客观存在:首先,在稀疏方面,DeepSeek 选择了从头训练 MoE 模型,面向云端,MoE 确为较优方案,但端侧则并不适合 MoE,面壁也找到了更适配的方案,其不仅在 MiniCPM-S 系列引入了自研稀疏化方案,还提出了新型类脑高效稀疏 Configurable Foundation Model 架构;
其次,DeepSeek 的高效是高度定制的技术体系,MoE 和 MLA 强绑定,并且主要面向大集群训练、部署服务,用云提供用户服务的极致优化,面壁则是面向边端算力场景进行极致优化,更看重单设备服务的高效性;
再次,DeepSeek 在高效训练层面小有所成,而面壁在高效推理方面则更为得心应手。值得一提的是,高效性实际上也是模型部署在端侧需要攻克的难点问题,而这也是面壁早早开始切入的赛道。
1
「高效」问题何解?
近日,被称为“大模型届拼多多”的 DeepSeek 发布了 DeepSeek-V3 模型,在多项评测成绩上,超越了 Qwen2.5-72B 和 Llama 3.1 405B 等其他开源模型,并且实现这一点,仅用了 2048 块 H800,作为对比,Llama 3 405B 此前共使用了 16384 块 H100 训练。
DeepSeek 此番也再度点燃了业内对于高效训练大模型的热议,无尽烧钱并非长久之计。据悉,DeepSeek-V3 模型的总训练成本仅为 557.6 万美元,训练时长在 280 万 GPU 小时。对比来看,GPT-4o 的训练成本约为 1 亿美元,Llama 3 405B 训练时长则为 3080 万 GPU 小时。
论文链接:https://arxiv.org/abs/2412.19437
众所周知,基座模型最关键的便是解决效率问题,而效率是多样的,稀疏化包括混合专家(Mixture of Experts,简称MoE)可以在增大模型参数规模的同时,保持计算成本远低于相同参数规模的稠密模型,这也是国内算力普遍有限境况下的必然选择。
DeepSeek 所选择的路径是从头训练 MoE,这种方式训起来相对困难,但也能缓解一些问题。例如,基于拷贝复制得到的 MoE 模型的潜在问题,因为基于拷贝的话, 专家之间会有很多知识的重叠,权重是冗余的,参数的冗余对各专家的支持是重叠的。同时,从头训练的自由度也较高,可以避免老模型的问题,争取达到 MoE 模型上限。
面向云端,MoE 确为当前最优解,但就端侧而言,MoE 则不一定为正解,所以,面壁也给出了新的稀疏化方案来解决端侧模型问题:
去年,面壁在 MiniCPM-S 系列引入了自研稀疏化方案,通过将激活函数替换为 ReLU 及通过带渐进约束的稀疏感知训练来提升大模型的稀疏性,能将 Llama、MiniCPM 稀疏度提升至接近 90%。并且也能够在保持模型原有水平的基础上,有效降低模型推理的开销,与之相比的 MoE 方案则会显著影响模型效果。
去年底,清华&面壁团队还提出了一种新型类脑高效稀疏 Configurable Foundation Model 架构。较之于 MoE,CFM 能更本质和宏观地覆盖从预训练到后训练的模块化全过程,从结果上,对于大模型“知识密度”极致提升、对于端侧模型极速低能耗推理能产生更显著作用。
据面壁官方介绍,这一架构证实了大模型本身就具有高效稀疏模块化特性——大模型神经元与人脑类似,在预训练过程中自发地产生了功能分化与分区的性质,各自负责语言、数学、代码等能力,且每次计算过程中大模型仅有这些分区的神经元被激活。
因此,CFM 将大模型拆分为预训练阶段产生的涌现模块(Emergent Brick)与后训练阶段产生的定制模块(Customized Brick),使得训练大模型可以像搭积木一样,通过模块的检索、组合、更新、增长,实现复杂能力的组合。
值得一提的是,面壁其实也是国内最早把稀疏激活这块做起来的团队。
早在 2021 年 6 月,面壁智能创始人刘知远牵头的“悟道·文源”就发布了千亿 MoE 大模型 CPM-2 ,参与成员中也包括了面壁的初始团队。
同年,面壁团队发布题为《MoEfication:Transformer Feed-forward layers are Mixtures of Experts》的论文,提出将一个稠密的模型转化为等参数量的 MoE 模型,同样能实现大幅度推理加速,也证明了只使用显贵神经网络 10% 到 30% 的参数就可以保留 95% 的性能。
论文链接:https://arxiv.org/abs/2110.01786
刘知远告诉 AI 科技评论,其创立面壁的初衷就是希望更多人能低成本使用大模型,所以那时他们也做了一套平台模型的训练微调,尽可能降低压缩、微调等环节的成本。
此后,面壁也一直在沿着降本、高效这条路径不断探索解决方案。其曾用 MiniCPM 2.4B 的小模型实现了性能对标 Llama 2 13B,而前者具体数据的配比、参数配置都是用十分之一甚至更小的模型训练、预测出的。
这种以小见大的路径证明了当参数潜力被激发,小模型完全能使用更高效的训练方式实现更好的性能,找到 20B、50B 甚至更大参数模型的最优解也同样可能。
再回到 DeepSeek 和面壁选择路径的差异继续探讨,DeekSeek 在云端超大规模模型的训练过程中引入了 MoE 和多头潜在注意力(MLA)技术,使模型能以更大的 batch size 运行,减少单个请求实际的运算量,同时也降低模型在云端 API 上的推理成本。
也有大模型从业者向 AI 科技评论分析称,“DeepSeek 的高效是高度定制的技术体系,MoE 和 MLA 强绑定,去掉 MoE 以后 MLA 会比较废,且其 MoE 也和流水线 Infra 并行强绑定。整体而言,DeepSeek 是面向大集群训练、大集群部署服务,用云提供用户服务的极致优化。”
面壁所选择的路径则是面向边端算力场景进行极致优化,其更看重单设备服务的高效性,MiniCPM 在模型训练技术上优化使得模型知识密度更高,继而以小参数战胜大参数模型,MiniCPM 系列端侧模型也能够直接在各种端侧设备上本地化运行,提供和云端 API 相当的智能能力,针对面壁所专注的端侧场景,DeepSeek 则还没有提供解决方案。
值得一提的是,Scaling Law 持续面临着数据和算力资源的上限难题,去年底也曾被业内质疑或将失效。此前,面壁也一直追求在同时间、同参数下能实现更优的 Scaling Law,如今正在探索其他规律。
据刘知远介绍,他发现大模型行业也有着和摩尔定律相似的规律——随着数据、算力、算法的协同发展,2020 年发布的 GPT-3 用 1750 亿参数达到的能力,到 2024 年 2 月只需要 24 亿参数即可达到,大模型的能力“密度”正在提升,这正意味能用更少的参数实现相同的智能水平。
据此,前段时日,刘知远和团队也提出了大模型密度定律(Densing Law)—— 模型能力密度随时间呈指数级增长。据面壁方面介绍,“能力密度”(Capability Density)为给定 LLM 的有效参数大小与实际参数大小的比率。比如一个 3B 的模型能达到 6B 参考模型的性能,那么这个 3B 模型的能力密度就是 2(6B/3B)。
而根据密度定律,面壁得出的推论主要有七点:实现相同能力的模型参数每 3.3 个月(约100天)下降一半;模型推理开销随时间指数级下降;模型训练开销随时间迅速下降;大模型能力密度呈加速增强趋势;模型小型化揭示端侧智能巨大潜力;无法通过模型压缩增强模型能力密度;密度倍增周期决定模型存在“有效期”。
2
端侧如何胜云侧?
这套高效优化把模型做小的逻辑,实际上也能顺理成章解决模型部署到端侧的问题。
从世界范围的算力分布上来看,OpenAI、Google、Meta 部署了很多大的云端平台,但如果算上 80 亿手机上的芯片,这是非常重要的长尾。事实上,在手机中刷视频的 APP 里并非所有需求都需要在云侧解决,有相当一部分计算是发生在本地的。
刘知远告诉 AI 科技评论,“明明一个 13B 模型的能力可以用一个 2B 的模型去做,且可以在端侧跑得非常快,没必要去实测、发请求。大模型是计算稠密的任务,从可持续发展、实际落地的角度讲,显然端侧的算力完全没有被释放,因此 MiniCPM 的效果极有可能就是未来方向。而且不是所有需求都得用GPT-4,有时 GPT-3 也可以满足。”
自 MiniCPM-V 系列开始,面壁便一直聚焦解决端侧模型多模态问题,此次,AI 科技评论注意到,其又推出了 MiniCPM-o 2.6 新模型,体验链接如下:
https://huggingface.co/openbmb/MiniCPM-o-2_6
https://github.com/OpenBMB/MiniCPM-o
据面壁官方介绍,MiniCPM-o 2.6 仅 8B 个参数。
与 MiniCPM-V 2.6 相比,MiniCPM-o 2.6 不仅在视觉能力上进行了提升,如强大的 OCR 能力、可信行为、多语言支持和视频理解,也引入了实时语音对话和多模式直播的新功能,支持双语实时语音对话,声音可配置,还可实现情绪/语速/风格控制、端到端语音克隆、角色扮演等趣味功能,并首次支持在 iPad 等端侧设备上进行多模态直播。
MiniCPM-o 2.6 此次也全面对标了 GPT-4o 的“全模态实时流式视频理解+高级语音对话”,不仅支持视频、语音、文本输入以及语音、文本输出,还具备 GPT-4o 级别(人类级别)的低延迟实时交互。
不过,GPT-4o 并未部署在端侧,因此存在网络延迟、服务器带宽/高并发情况下使用可靠性等隐忧。
除此之外,和 GPT-4o 相比,MiniCPM-o 2.6 的优势体现在能听到除人声之外的背景音,比如撕纸、倒水、金属碰撞等,值得一提的是,这一点目前市面上大多数部署在云端的大模型也都还无法达成。
此外,面壁这次也特别强调了“真正”的视频大模型这一点。
AGI 本身其实不只是大模型,拆分其能力包括有推理、记忆、规划以及与外界的交互,而交互则包含感知和对工具的使用,交互本质上是多模态,需要深刻理解图片、视频和声音。
MiniCPM-o 2.6 能够感知用户提问之前的画面和声音,并持续对实时视频和音频流进行建模,这种方式更贴近人眼的自然视觉交互。而目前市场上有些宣称支持实时流式视频理解的模型或产品,其实只能算作照片大模型,其仅在用户提问后才开始对视频进行静态图片抽帧,无法捕捉用户提问之前的画面,缺乏对前文情境的感知。
AI 科技评论也从面壁方面了解到,能实现这些技术上的突破,MiniCPM-o 2.6 背后的技术路径主要包括以下三个方面:
一是端到端全模态流式架构。主要采用模块化全模态能力建模架构,实现全模态能力的灵活高效构建。其中核心语言基座为 MiniCPM 3.0 的 4B 模型,通过 ViT 等模型进行视觉和语音编码,语音生成通过自回归语音解码模块实现。
整体模型以端到端方式,通过连续稠密表示连接,实现端到端的联合学习,从而支撑较高的模型能力上限。具体地,视觉及语音输入中非自然语言可描述的模态信息,可通过端到端方式传递到语音生成内容中,从而实现生成内容的较高自然度和可控性。
二是低延迟模态并发技术。通过模态多路时分复用技术,实现低延迟的模态并发。将时间域切分成为周期循环的时间切片,在每个时间切片中,分别对视觉和音频输入信号进行流式编码,并对主动输出语义时机进行判断。为最大程度降低响应延迟,通过基座模型对用户语音结束时机进行高级语义判断,从而避免语音活性检测引入的长时间等待。
三是端到端全模态流式学习。在视频中学习观察多模态环境,根据人物身份,进行社会角色扮演。可以实现预训练级别的监督微调,以及“外部环境-社会意图-语言语音行为”之间的对齐关系,从而获得高级多模态语义知识,有望实现更加高级的心智水平。这有望为全模态大模型驱动具身机器人,参与人类社会活动打下基础。
面壁已经将端侧模型的技术迭代到了新高度,但值得注意的是,把模型做小解决高效性问题是其一,小模型并不完全等同于端侧模型,模型要部署在端侧,硬件的发展也起到关键作用。
当下,端侧模型要运行在终端,存在着内存、功耗、算力三大硬件瓶颈。根据 Apple 方面的说法,70 亿半精度参数的语言模型要完全加载进终端需要超过 14 GB的 DRAM 空间,Meta 也曾指出,一个约有 5000 焦耳满电能量的 iPhone,仅支持 7B 模型在 10 tokens/秒的 AI 生成速率下对话不足 2 小时。
但行业发展近况也还算乐观,“首先,芯片在高度发展,最新芯片已经可以支持百亿参数模型,其次,模型训练技术在提升,两三百亿的模型也能达到 GPT-3.5 水平,关键问题在于如何把芯片和模型训练接起来,这之中就需要优化,不过这块技术已不成问题,只需等待时机。”面壁智能首席研究员韩旭告诉 AI 科技评论。
3
务实的理想主义者
当前,许多团队把追求实现 AGI 作为唯一卖点或奋斗目标,但如同造计算机一般,造出更强大的计算机很重要,将计算机造得低廉,能让整个社会受益,则需要兼顾应用层面,面壁所做的就是贡献其中一部分。
面壁对 AGI 的看法更像是务实的理想主义者:AI 最终还是要作为人的工具,从计算机的角度来看,AI 就是为了让计算机更智能、有理解能力,如何让 AI 更高效,把人从机械劳动里解脱出来才是应当思考的问题。
在刘知远的观点中,未来假如按照 OpenAI 的规划,五年实现超级智能有太多关键问题要解决,scaling prediction 是其中之一,超级对齐也是关键问题,即当大模型在某个任务上已经超越人类,有无办法能继续提升也还需要探索解法。
而继续追赶 GPT-4 也只是一个参考,跟随 OpenAI 并不一定是最正确的选择,面壁在未来不会只局限于 scaling prediction,更不会把某一问题当做全部,换言之,实现 AGI 必须要坚持自身独到路线。
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。