文 | 脑极体

过年期间沉迷休息,心怀愧疚地无视了读者催我们写DeepSeek的要求。后来我发现,这催更不仅适用于科技博主,比如在一个跟AI毫无关系的搞笑博主评论区里,我看见有网友说,“你怎么还不讲DeepSeek?他血洗美国股市,干碎了美国人的幻想。那些欧美科技公司全都坐不住了”。

接下来这种“热情”愈演愈烈。什么“科技巨头全报废了”“AGI马上实现”“普通人再不学DeepSeek就晚了”,种种言论层出不穷。甚至还有DeepSeek受到境外大规模网络攻击,各大科技公司顶尖高手联手隐迹江湖的中国红客出手相救的爽文剧情。


舆论到这里愈发离谱了起来。谈到DeepSeek,我们好像会自动陷入某种弥散性的狂热情绪。其中当然有DeepSeek足够出色的原因,有近几年AI大热的加持,但很难否认的是,其中也有地缘因素的推动。很多人迫切需要一个“歪果仁怕了、服了”的故事,在科技领域尤其如此。

为了迎合这种情绪,媒体与公众人物倾向于推波助澜。比如将对DeepSeek的讨论,推到哲学、国运、历史走向的高度。而这些讨论又会在流量的折射与层层断章取义之下被无尽放大,很快让一款AI模型承受了它本不该承受的地位、责任与期待。这就是所谓的“推上神坛”。

但神坛之上风景并不好。因为以往经验提醒我们,往往下一步就是“伤仲永”“泡沫破裂”等舆论反噬。对于初露锋芒的DeepSeek与研发团队来说,这种走向应该是弊大于利的。

因此我们想要讨论一下,目前阶段可以基于哪些共识来客观讨论DeepSeek。或者说,不妨试着拆掉舆论神坛,还原一个更真实也更朴素的DeepSeek。

没有从0到1的创新

不妨先释放一个“爆论”。那就是跟社交媒体发散的观点截然不同,DeepSeek其实并没有完成从0到1的核心技术突破。

DeepSeek大火之后,其研发团队与科技产业相关人士都在讨论中国AI不能只是跟随,必须完成从0到1。这个观点绝对正确,但目前的DeepSeek可能还不能成为这个观点的作证。

所谓核心技术突破,应该是主要技术路径的变化,或者达成效果的巨大升级。而DeepSeek目前最让人经验的技术能力,一个是R1模型带火的思维链推理过程,另一个是其联网检索的RAG效果表现出色。


但这两条技术路径都不是DeepSeek开创的。思维链的兴起一般认为是OpenAI发布的o1模型。去年9月o1模型公布后,全球主流大模型纷纷跟进了思维链、推理大模型等能力。各家名称不同,但整体技术路线是非常一致的。DeepSeek确实把思维链的过程更完整、详细展示了出来,但其实也很容易看到其中大模型幻觉还很严重。

而在联网检索方面,其他厂商也早有布局,也就是所谓的RAG检索-增强-生成机制。这项技术最开始是为了解决大模型不具备实时信息的问题,并且帮助矫正大模型幻觉。早在2023年,百度发布文心一言时,RAG就已经是其核心能力的组成部分。

但要注意的是,没有从0到1的创新,不等于没有创新。DeepSeek在模型能力的优化上做了大量开拓性工作,比如通过GRPO算法让模型更加高效。或许可以说,DeepSeek集成了业界主流的,被验证过的技术路线。在其基础上完成了模型优化、能力加强与用户体验升级。

我们总是渴望从0到1,总是期待石破天惊。但客观来看,第一步和第一万步,迈出的距离是一样的。

确实完成了AI算力成本缩减

那么,DeepSeek真正引发全球关注的价值在哪里?在短短一个春节的发酵之后,可能很多人都忘记了它最早出圈的原因是通过软件和架构创新,用非常低的算力成本完成了DeepSeek-V3模型的训练。

DeepSeek-V3是我们今天用到的R1模型的基础模型。在研发团队发表的论文中,可以看到其仅仅使用了550万美元的算力训练成本就完成了6710亿参数大模型的训练。即使这项统计仅仅局限于基础模型训练的算力成本这一项,没有包含后续应用模型的强化学习、模型推理,以及人才成本、综合成本等项目,但也是毫无疑问颠覆了大模型训练的主流成本模型。

而最终DeepSeek实现的效果,也基本达到了o1为代表的主流大模型水平。虽然在模型效果上很难说有全面的超越,但其确实以软件算法的革新实现了硬件成本的下降。让低成本模型的效果不差于高成本,让开源模型的效果追赶闭源模型。

而DeepSeek“降低AI算力成本”的突破,又恰好发生在全球主流AI玩家囤积高端GPU,以此筑造产业护城河,以及美国对中国禁售高端AI芯片,希望以此打压中国AI的关键节点上。于是也就有了DeepSeek实现AI民主化,甚至助力打破地缘科技垄断的意味,从而产生了一款中国AI大模型让整个美国股市遭遇震荡的戏剧性一幕。

DeepSeek实现的训练效率提升与训练成本下降,在特殊的产业环境与国际环境下造成了连锁反应。但问题是很多平时不关注AI的朋友,可能并不知道AI大模型算力越大效果越好的Scaling Laws,也不知道算力垄断和禁售的背景信息,只知道短视频上说DeepSeek横空出世,歪果仁都慌了、怕了。这种缺乏前因后果的联想,给DeepSeek凭空造出了一座不应属于它的神坛。

推而广之,我们很多人都喜欢那些天才式的、戏剧化的创新。但在现实中,往往只有通过工程化能力,不断调优,降本,提效,技术创新才有应用和普及的可能。

比如我们都知道爱迪生发明了电灯,但容易忽略大规模电网实现了电力成本的极大下降。如果每家都要自己发电,那世界将一片漆黑。

“我们把成本打下来了。”

这句有点荒诞、俗套,略带反讽意味的话,其实才是中国产业化能力的缩影。

我们也不妨大大方方承认,包括DeepSeek在内的中国AI,在未来很长一段时间里最擅长的就是把成本给狠狠打下来。

它的成功,很大部分依靠人文能力

DeepSeek爆火之后,很多人都说这是技术的巨大胜利。预言AI的崛起会让人文学科和人文工作丧失价值。甚至“DeepSeek来了,学文科还有意义吗?”登上了热搜。

但如果我们多使用DeepSeek,仔细分析它与其他模型的区别,会发现一个相反的观点:DeepSeek恰好证明了文科与人文能力,在AI时代有多么的重要。

我们随机问一些人,对DeepSeek的使用体验是怎样的。他们应该会说跟DeepSeek对话感觉更有人味。

但这种人味,在很大程度上并不是理解、推理等AI技术层面的“人味”,而是模型在对话过程中展露出来了大量的幽默感、网感,以及更加符合年轻群体的对话习惯。还有就是DeepSeek具有相对更精妙的修辞能力,优美的文笔,还有不错的综合人文素养。


这些能力,让DeepSeek更贴近年轻用户的对话习惯和审美需求,并且能够给出更有话题度和传播度的回答。但问题是,这些能力其实都与技术的关系不大,而是很大程度上与训练语料的选取等人文能力紧密相关。

比如说,你让DeepSeek写首诗,它能够写出文艺青年热爱的语调与修辞。但其他主流国内大模型,也能写得平仄工整、辞藻华丽,但一眼看去就是酷似打油诗的“老干体”。

再比如,让DeepSeek预测一些未来趋势之类的问题,它的回答会特别类似网络科幻小说。虽然经不起推敲,但就是能让年轻人有种非常厉害,特别燃的感觉。

这些优点的来源不是技术,而是在于研发团队的年轻化、高审美,并且重视模型训练过程中的人文要素。反观很多主流大模型,由于最终听取汇报的领导层普遍是大于45岁,缺乏人文学科背景的中年男士,最终导致大模型对话也是班味十足,打起官腔来一套又一套。与其说年轻人在支持DeepSeek,不如说年轻人在支持自己的话语权和审美权。

顺便一提,DeepSeek的另一个人文优势,是它目前还有些“百无禁忌”。然而监管的铁拳虽迟但到,大家不必对AI的犀利和大胆有任何幻想。

DeepSeek以一种很巧妙的方式,实现了用户对话体验更好,传播效果更优秀。这些在技术层面之外,或许能够引起AI公司对产品体验的反思,以及对人文能力的重视。

如果我们狂吹DeepSeek的技术,导致对其人文体验的忽略,那其实也挺可惜的。

山高万仞,只登一步

综合以上这些侧面,我们可以拼凑出一个比较完整,且不带神圣光晕效果的DeepSeek:

它是一次综合的突破。这种突破由技术创新,人文素养、开源和低成本策略等要素所构成,并且在特殊的产业周期与国际环境背景下被发酵。

DeepSeek不是石破天惊的技术革命,但它足够成熟,足够有新意。这也在某种程度上解释了,为什么欧美的AI大佬与专家,对其比较一致的观点是“令人印象深刻”。

DeepSeek没有一步登天,我们也不必幻想一步登天。

它就是前进了一大步,而我们也足可为迈出了这一步而自信和骄傲。

我也十分反对中国只有DeepSeek的言论。事实上,中国有清晰的AI产业格局,有坚实的自主化AI软硬件体系,有数十万AI开发者,有非常积极的AI政策导向。这些都是更多DeepSeek的土壤。有这些因素在,我十分笃定地认为会有更多DeepSeek出现在这里。直到AI工业革命的开启,直到AGI的曙光。

何不把DeepSeek带下神坛?理性从容地看待它,用好它,用好中国AI事业的一切造物,才是AI在中国真正成熟的表现。

王阳明说,山高万仞,只登一步。DeepSeek这一步有它的意义,迈出这一步后,也不妨停下来听听山风,浅斟低唱一番。但也要清醒地知道,我们还在山间。

休息好了,高兴够了,也只有一件事要做。那就是迈出下一步。

ad1 webp
ad2 webp
ad1 webp
ad2 webp