大模型隐藏玩家上桌：DeepSeek 向左，面壁向右

他们正在打样「榨干」有限算力的极致解法。

作者丨朱可轩

编辑丨陈彩娴

大模型赛跑两年后，玩家已逐步分化为三种趋势：一类玩家仍追随 OpenAI 的脚步卷大参数基座模型，另外一类烧不起钱的玩家转头拥抱应用端，而第三类则自始至终都在摸索如何更高效打造出性能更优的模型。

目前，第一类卷向大参数的玩家也都在寻找高效解决方案，连 OpenAI 此前发布 GPT-4o mini 切入小模型市场，Meta Llama 3.1-8B、微软 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是头部玩家在做的布局。

算力存在上限已是不争的事实，而且也并非参数越大就意味着效果一定能达到预期，更何况，如若如果每增长一倍参数规模，效果能力却并未呈一倍增长，大模型发展起来会很慢：

OpenAI 能用百千亿达到 GPT-4 的水平，其他家则可能需要投入更多资源，如此一来要追赶 GPT-5 会更难，因为在 OpenAI 的基础上再加码更多算力、参数的可能性不大，这对于大多数无法如同 OpenAI 一般大把烧钱的玩家而言并非理智选择。

所以可以看到，现如今已有不少玩家选择投身应用端，不再执着于基座大模型。而继续坚持的玩家们，则在思考如何基于有限的资源，将每个参数的作用发挥到极致，这才是多数人一致看好的大模型训练最终方向。不过，现阶段，模型参数的能力上限还远未完全探索到。

沿着这一思路，国内创业队伍中，面壁和 DeepSeek 凭借高效且开源的模型迅速引发广泛关注，并在海外社区得到高度评价，经济学人也曾将他们并称为中国最具创新能力的大模型公司。

当前，在国内大模型创业玩家队伍里，除了受到热捧的六小龙外，面壁和 DeepSeek 这两只潜力股也已先后加入战局，大模型明显呈现出“6+2”格局。

国内每有创新定会在海外先掀起风浪：DeepSeek 在去年发布 DeepSeek-V2 模型因“白菜价”一举成名后，其近期新发布的 V3 模型则收到了硅谷大佬的一致惊叹，而面壁此前则曾因 MiniCPM-Llama3-V 2.5 模型被硅谷团队套壳抄袭一事引发热议，后续其也因另辟蹊径聚焦端侧而得到业内密切关注。

海内外科技圈对二者技术实力的认可能够可见一斑，值得一提的是，他们背后的团队也均来自清北高校，面壁的核心成员大多来自清华 NLP 实验室，DeepSeek 也偏爱吸纳年轻的清北应届人才。

不过，除前所述，双方的差异也客观存在：首先，在稀疏方面，DeepSeek 选择了从头训练 MoE 模型，面向云端，MoE 确为较优方案，但端侧则并不适合 MoE，面壁也找到了更适配的方案，其不仅在 MiniCPM-S 系列引入了自研稀疏化方案，还提出了新型类脑高效稀疏 Configurable Foundation Model 架构；

其次，DeepSeek 的高效是高度定制的技术体系，MoE 和 MLA 强绑定，并且主要面向大集群训练、部署服务，用云提供用户服务的极致优化，面壁则是面向边端算力场景进行极致优化，更看重单设备服务的高效性；

再次，DeepSeek 在高效训练层面小有所成，而面壁在高效推理方面则更为得心应手。值得一提的是，高效性实际上也是模型部署在端侧需要攻克的难点问题，而这也是面壁早早开始切入的赛道。

「高效」问题何解？

近日，被称为“大模型届拼多多”的 DeepSeek 发布了 DeepSeek-V3 模型，在多项评测成绩上，超越了 Qwen2.5-72B 和 Llama 3.1 405B 等其他开源模型，并且实现这一点，仅用了 2048 块 H800，作为对比，Llama 3 405B 此前共使用了 16384 块 H100 训练。

DeepSeek 此番也再度点燃了业内对于高效训练大模型的热议，无尽烧钱并非长久之计。据悉，DeepSeek-V3 模型的总训练成本仅为 557.6 万美元，训练时长在 280 万 GPU 小时。对比来看，GPT-4o 的训练成本约为 1 亿美元，Llama 3 405B 训练时长则为 3080 万 GPU 小时。

论文链接：https://arxiv.org/abs/2412.19437

众所周知，基座模型最关键的便是解决效率问题，而效率是多样的，稀疏化包括混合专家（Mixture of Experts，简称MoE）可以在增大模型参数规模的同时，保持计算成本远低于相同参数规模的稠密模型，这也是国内算力普遍有限境况下的必然选择。

DeepSeek 所选择的路径是从头训练 MoE，这种方式训起来相对困难，但也能缓解一些问题。例如，基于拷贝复制得到的 MoE 模型的潜在问题，因为基于拷贝的话，专家之间会有很多知识的重叠，权重是冗余的，参数的冗余对各专家的支持是重叠的。同时，从头训练的自由度也较高，可以避免老模型的问题，争取达到 MoE 模型上限。

面向云端，MoE 确为当前最优解，但就端侧而言，MoE 则不一定为正解，所以，面壁也给出了新的稀疏化方案来解决端侧模型问题：

去年，面壁在 MiniCPM-S 系列引入了自研稀疏化方案，通过将激活函数替换为 ReLU 及通过带渐进约束的稀疏感知训练来提升大模型的稀疏性，能将 Llama、MiniCPM 稀疏度提升至接近 90%。并且也能够在保持模型原有水平的基础上，有效降低模型推理的开销，与之相比的 MoE 方案则会显著影响模型效果。

去年底，清华&面壁团队还提出了一种新型类脑高效稀疏 Configurable Foundation Model 架构。较之于 MoE，CFM 能更本质和宏观地覆盖从预训练到后训练的模块化全过程，从结果上，对于大模型“知识密度”极致提升、对于端侧模型极速低能耗推理能产生更显著作用。

据面壁官方介绍，这一架构证实了大模型本身就具有高效稀疏模块化特性——大模型神经元与人脑类似，在预训练过程中自发地产生了功能分化与分区的性质，各自负责语言、数学、代码等能力，且每次计算过程中大模型仅有这些分区的神经元被激活。

因此，CFM 将大模型拆分为预训练阶段产生的涌现模块（Emergent Brick）与后训练阶段产生的定制模块（Customized Brick），使得训练大模型可以像搭积木一样，通过模块的检索、组合、更新、增长，实现复杂能力的组合。

值得一提的是，面壁其实也是国内最早把稀疏激活这块做起来的团队。

早在 2021 年 6 月，面壁智能创始人刘知远牵头的“悟道·文源”就发布了千亿 MoE 大模型 CPM-2 ，参与成员中也包括了面壁的初始团队。

同年，面壁团队发布题为《MoEfication：Transformer Feed-forward layers are Mixtures of Experts》的论文，提出将一个稠密的模型转化为等参数量的 MoE 模型，同样能实现大幅度推理加速，也证明了只使用显贵神经网络 10% 到 30% 的参数就可以保留 95% 的性能。

论文链接：https://arxiv.org/abs/2110.01786

刘知远告诉 AI 科技评论，其创立面壁的初衷就是希望更多人能低成本使用大模型，所以那时他们也做了一套平台模型的训练微调，尽可能降低压缩、微调等环节的成本。

此后，面壁也一直在沿着降本、高效这条路径不断探索解决方案。其曾用 MiniCPM 2.4B 的小模型实现了性能对标 Llama 2 13B，而前者具体数据的配比、参数配置都是用十分之一甚至更小的模型训练、预测出的。

这种以小见大的路径证明了当参数潜力被激发，小模型完全能使用更高效的训练方式实现更好的性能，找到 20B、50B 甚至更大参数模型的最优解也同样可能。

再回到 DeepSeek 和面壁选择路径的差异继续探讨，DeekSeek 在云端超大规模模型的训练过程中引入了 MoE 和多头潜在注意力（MLA）技术，使模型能以更大的 batch size 运行，减少单个请求实际的运算量，同时也降低模型在云端 API 上的推理成本。

也有大模型从业者向 AI 科技评论分析称，“DeepSeek 的高效是高度定制的技术体系，MoE 和 MLA 强绑定，去掉 MoE 以后 MLA 会比较废，且其 MoE 也和流水线 Infra 并行强绑定。整体而言，DeepSeek 是面向大集群训练、大集群部署服务，用云提供用户服务的极致优化。”

面壁所选择的路径则是面向边端算力场景进行极致优化，其更看重单设备服务的高效性，MiniCPM 在模型训练技术上优化使得模型知识密度更高，继而以小参数战胜大参数模型，MiniCPM 系列端侧模型也能够直接在各种端侧设备上本地化运行，提供和云端 API 相当的智能能力，针对面壁所专注的端侧场景，DeepSeek 则还没有提供解决方案。

值得一提的是，Scaling Law 持续面临着数据和算力资源的上限难题，去年底也曾被业内质疑或将失效。此前，面壁也一直追求在同时间、同参数下能实现更优的 Scaling Law，如今正在探索其他规律。

据刘知远介绍，他发现大模型行业也有着和摩尔定律相似的规律——随着数据、算力、算法的协同发展，2020 年发布的 GPT-3 用 1750 亿参数达到的能力，到 2024 年 2 月只需要 24 亿参数即可达到，大模型的能力“密度”正在提升，这正意味能用更少的参数实现相同的智能水平。

据此，前段时日，刘知远和团队也提出了大模型密度定律（Densing Law）—— 模型能力密度随时间呈指数级增长。据面壁方面介绍，“能力密度”（Capability Density）为给定 LLM 的有效参数大小与实际参数大小的比率。比如一个 3B 的模型能达到 6B 参考模型的性能，那么这个 3B 模型的能力密度就是 2（6B/3B）。

而根据密度定律，面壁得出的推论主要有七点：实现相同能力的模型参数每 3.3 个月（约100天）下降一半；模型推理开销随时间指数级下降；模型训练开销随时间迅速下降；大模型能力密度呈加速增强趋势；模型小型化揭示端侧智能巨大潜力；无法通过模型压缩增强模型能力密度；密度倍增周期决定模型存在“有效期”。

端侧如何胜云侧？

这套高效优化把模型做小的逻辑，实际上也能顺理成章解决模型部署到端侧的问题。

从世界范围的算力分布上来看，OpenAI、Google、Meta 部署了很多大的云端平台，但如果算上 80 亿手机上的芯片，这是非常重要的长尾。事实上，在手机中刷视频的 APP 里并非所有需求都需要在云侧解决，有相当一部分计算是发生在本地的。

刘知远告诉 AI 科技评论，“明明一个 13B 模型的能力可以用一个 2B 的模型去做，且可以在端侧跑得非常快，没必要去实测、发请求。大模型是计算稠密的任务，从可持续发展、实际落地的角度讲，显然端侧的算力完全没有被释放，因此 MiniCPM 的效果极有可能就是未来方向。而且不是所有需求都得用GPT-4，有时 GPT-3 也可以满足。”

自 MiniCPM-V 系列开始，面壁便一直聚焦解决端侧模型多模态问题，此次，AI 科技评论注意到，其又推出了 MiniCPM-o 2.6 新模型，体验链接如下：

https://huggingface.co/openbmb/MiniCPM-o-2_6

https://github.com/OpenBMB/MiniCPM-o

据面壁官方介绍，MiniCPM-o 2.6 仅 8B 个参数。

与 MiniCPM-V 2.6 相比，MiniCPM-o 2.6 不仅在视觉能力上进行了提升，如强大的 OCR 能力、可信行为、多语言支持和视频理解，也引入了实时语音对话和多模式直播的新功能，支持双语实时语音对话，声音可配置，还可实现情绪/语速/风格控制、端到端语音克隆、角色扮演等趣味功能，并首次支持在 iPad 等端侧设备上进行多模态直播。

MiniCPM-o 2.6 此次也全面对标了 GPT-4o 的“全模态实时流式视频理解+高级语音对话”，不仅支持视频、语音、文本输入以及语音、文本输出，还具备 GPT-4o 级别（人类级别）的低延迟实时交互。

不过，GPT-4o 并未部署在端侧，因此存在网络延迟、服务器带宽/高并发情况下使用可靠性等隐忧。

除此之外，和 GPT-4o 相比，MiniCPM-o 2.6 的优势体现在能听到除人声之外的背景音，比如撕纸、倒水、金属碰撞等，值得一提的是，这一点目前市面上大多数部署在云端的大模型也都还无法达成。

此外，面壁这次也特别强调了“真正”的视频大模型这一点。

AGI 本身其实不只是大模型，拆分其能力包括有推理、记忆、规划以及与外界的交互，而交互则包含感知和对工具的使用，交互本质上是多模态，需要深刻理解图片、视频和声音。

MiniCPM-o 2.6 能够感知用户提问之前的画面和声音，并持续对实时视频和音频流进行建模，这种方式更贴近人眼的自然视觉交互。而目前市场上有些宣称支持实时流式视频理解的模型或产品，其实只能算作照片大模型，其仅在用户提问后才开始对视频进行静态图片抽帧，无法捕捉用户提问之前的画面，缺乏对前文情境的感知。

AI 科技评论也从面壁方面了解到，能实现这些技术上的突破，MiniCPM-o 2.6 背后的技术路径主要包括以下三个方面：

一是端到端全模态流式架构。主要采用模块化全模态能力建模架构，实现全模态能力的灵活高效构建。其中核心语言基座为 MiniCPM 3.0 的 4B 模型，通过 ViT 等模型进行视觉和语音编码，语音生成通过自回归语音解码模块实现。

整体模型以端到端方式，通过连续稠密表示连接，实现端到端的联合学习，从而支撑较高的模型能力上限。具体地，视觉及语音输入中非自然语言可描述的模态信息，可通过端到端方式传递到语音生成内容中，从而实现生成内容的较高自然度和可控性。

二是低延迟模态并发技术。通过模态多路时分复用技术，实现低延迟的模态并发。将时间域切分成为周期循环的时间切片，在每个时间切片中，分别对视觉和音频输入信号进行流式编码，并对主动输出语义时机进行判断。为最大程度降低响应延迟，通过基座模型对用户语音结束时机进行高级语义判断，从而避免语音活性检测引入的长时间等待。

三是端到端全模态流式学习。在视频中学习观察多模态环境，根据人物身份，进行社会角色扮演。可以实现预训练级别的监督微调，以及“外部环境-社会意图-语言语音行为”之间的对齐关系，从而获得高级多模态语义知识，有望实现更加高级的心智水平。这有望为全模态大模型驱动具身机器人，参与人类社会活动打下基础。

面壁已经将端侧模型的技术迭代到了新高度，但值得注意的是，把模型做小解决高效性问题是其一，小模型并不完全等同于端侧模型，模型要部署在端侧，硬件的发展也起到关键作用。

当下，端侧模型要运行在终端，存在着内存、功耗、算力三大硬件瓶颈。根据 Apple 方面的说法，70 亿半精度参数的语言模型要完全加载进终端需要超过 14 GB的 DRAM 空间，Meta 也曾指出，一个约有 5000 焦耳满电能量的 iPhone，仅支持 7B 模型在 10 tokens/秒的 AI 生成速率下对话不足 2 小时。

但行业发展近况也还算乐观，“首先，芯片在高度发展，最新芯片已经可以支持百亿参数模型，其次，模型训练技术在提升，两三百亿的模型也能达到 GPT-3.5 水平，关键问题在于如何把芯片和模型训练接起来，这之中就需要优化，不过这块技术已不成问题，只需等待时机。”面壁智能首席研究员韩旭告诉 AI 科技评论。

务实的理想主义者

当前，许多团队把追求实现 AGI 作为唯一卖点或奋斗目标，但如同造计算机一般，造出更强大的计算机很重要，将计算机造得低廉，能让整个社会受益，则需要兼顾应用层面，面壁所做的就是贡献其中一部分。

面壁对 AGI 的看法更像是务实的理想主义者：AI 最终还是要作为人的工具，从计算机的角度来看，AI 就是为了让计算机更智能、有理解能力，如何让 AI 更高效，把人从机械劳动里解脱出来才是应当思考的问题。

在刘知远的观点中，未来假如按照 OpenAI 的规划，五年实现超级智能有太多关键问题要解决，scaling prediction 是其中之一，超级对齐也是关键问题，即当大模型在某个任务上已经超越人类，有无办法能继续提升也还需要探索解法。

而继续追赶 GPT-4 也只是一个参考，跟随 OpenAI 并不一定是最正确的选择，面壁在未来不会只局限于 scaling prediction，更不会把某一问题当做全部，换言之，实现 AGI 必须要坚持自身独到路线。