文 | 硅谷101
DeepSeek的V3模型仅用557.6万的训练成本,实现了与OpenAI O1推理模型相近的性能,这在全球范围内引发连锁反应。由于不用那么先进的英伟达芯片就能实现AI能力的飞跃,英伟达在1月27日一天跌幅高达17%,市值一度蒸发6000亿美元。一部分投资人担心这会减少市场对先进芯片的需求,但科技圈也普遍存在另一种相反的观点:一个高性能、低成本和开源的大模型会带来整个应用生态的繁荣,反而会利好英伟达的长期发展。
这两种矛盾的观点正左右博弈。但如果从技术层面分析,DeepSeek对英伟达、芯片甚至是整个科技行业的影响并不是如此简单。比如本期嘉宾Inference.ai创始人兼CEO John Yue认为,DeepSeek冲击了英伟达两大壁垒——NVLink与CUDA,这在某种程度上打掉了英伟达的溢价,但也并未冲垮壁垒。
本期节目,主理人泓君邀请到加州大学戴维斯分校电子计算机工程系助理教授、AIZip的联合创始人陈羽北,以及Inference.ai创始人兼CEO John Yue,详细解读DeepSeek核心的技术创新以及对芯片市场的影响。
以下是部分访谈精选
01 DeepSeek的核心创新是基础模型能力
泓君:能不能先从技术上分析一下DeepSeek比较让人惊艳的地方?
陈羽北:从DeepSeek这次的进展来看,虽然强化学习在其中占据重要地位,但我认为基础模型DeepSeek V3本身的能力才是关键。这一点从DeepSeek的论文数据中可以得到印证——在R1 Zero未经过强化学习时,每生成100条内容就有约10%的成功率,这已经是非常显著的提升。
DeepSeek这次采用的是GRPO(分组相对策略优化)的方法,有人提出使用PPO(近端策略优化)等其他强化学习方法也能达到类似效果。
这告诉我们一个重要信息:当基础模型的能力达到一定水平后,如果能找到合适的奖励函数,就可以通过类似search的方法实现自我提升。所以这次进展传递了一个积极的信号,但强化学习在其中反而起到次要作用,基础模型的能力才是根本。
泓君:总结你的观点,DeepSeek之所以好本质上还是因为V3的表现非常惊艳,因为用比如MoE等各种方式,去让这个基础模型性能更好。R1只是在这个基础模型之上的一次升级,但是你觉得V3比R1-Zero更加重要?
陈羽北:我觉得他们都有一些重要的点。从V3来看,主要集中在模型架构效率的提升上,其中有两个重要的工作:一个是混合专家网络(MoE)。以前不同专家(expert)的负载均衡(load balance)做得不太好,在分散到不同节点时的时候,它的Load Balance会有问题,,所以他们对负载均衡做了优化。
其次,它在Attention Layer上,他要节省键值缓存(KV Cache),其实这也是在提高架构的效率。这两点作为它的核心创新,使得它在600多B的大模型上,使得基础模型的能力表现已经挺不错的了。在DeepSeek R1 Zero中,他们首先设计了一个简单直观的基于规则(rule-based)的奖励函数。基本要求是确保数学题的答案和回答格式都完全正确。他们采用了DeepSeek V3的方法:对每个问题生成100条回答,然后从中筛选出正确答案来增强正确回答的比重。
这种方法实际上绕过了强化学习(reinforcement learning)中最难处理的稀疏奖励问题——如果我回答100条、回答1万条它都不对,那我其实就没有办法去提升了。但如果任务已经有一定成功率,就可以着重强化这些成功的部分,这样就把稀疏奖励转变为相对稠密的奖励,也就不需要去搭桥、去建模、去构建中间的奖励函数了。借助V3的基础能力,R1 Zero告诉我们,如果这个模型的基础能力已经不错了,那么我是有可能通过这个模型自我来进行提升的。其实这种思路和Model Predictive Control和世界模型,是有很多的相似之处的。
第二个是让大模型训练小模型,看似是一个显而易见但是这次也产生了重大影响力的一个结果。他们先训练了一个600 多B的大模型,通过自启发式回答100个问题,然后用自我引导(Bootstrap)方法逐渐提高这个能力,将成功率从10%提升到70-80%。这个大模型还可以用来教导小模型。
他们做了一个有意思的实验,在Qwen上做了从1.5B一直到30几B的各种大小的蒸馏学习,用大模型学到的推理和计划能力来提升小模型在相关问题上的表现。这是一个相对容易想到的方向,因为在所有的自我增强、模型预测控制(model predictive control)和基于模型的强化学习(model-based reinforcement learning)中,如果模型本身不够好,通过搜索方法来提升效果都不会很理想。但如果用一个搜索能力强、表现好的大模型,直接把学到的能力传授给小模型,这种方法是可行的。
来源:ABB
泓君:所以从整体上看,DeepSeek采用的是一个组合拳策略,从V3到R1-Zero再到R1的每一步演进,在方向选择上都有其可取之处。那么在硅谷的公司中,像OpenAI、Gemini、Claude以及LlaMA,他们是否也采用了类似的模型训练方法呢?
陈羽北:我觉得很多这样的想法在之前的研究工作中就已经出现过。
比如DeepSeek V3模型中使用的多头潜在注意力机制(Multihead Latent Attention),Meta之前就发表过一篇关于多令牌层(Multi-Token Layer)的研究,效果也很相似。另外,在推理和规划(Reasoning and Planning)方面,之前也有过很多相关研究,还有在奖励机制和基于模型的方法(Model-Based Method)等这些方面。
其实我恰恰觉得这次DeepSeek R1 Zero的命名在一定程度上和AlphaZero有点像。
02 对英伟达利好与利空:冲击溢价但并未冲垮壁垒
泓君:想问一下John,因为你是GPU行业的,你觉得DeepSeek R1对英伟达,它到底是利好还是利空?为什么英伟达的股价会跌?
John Yue:这应该是一把双刃剑,既有利好也有利空。
利好方面很明显,DeepSeek的出现给了人们很多想象空间。以前很多人已经放弃做AI模型,现在它给了大家信心,让更多初创企业出来探索应用层面的可能性。如果有更多人做应用,这其实是英伟达最希望看到的局面,因为整个AI行业被盘活后,大家都需要购买更多的卡。所以从这个角度看,这对英伟达更有利。
而不利的一面是英伟达的溢价确实受到了一些冲击。很多人一开始认为它的壁垒被冲倒了,导致股价大跌。但我感觉实际情况并没有那么严重。
泓君:壁垒是什么?
John Yue: 英伟达有两个最大的壁垒:一个是Infiniband(芯片互联技术);另一个是CUDA(图形计算统一架构),它那整套调用GPU的系统,与AMD等其他芯片公司已经不在同一层面竞争了。其他公司都在争单张显卡的性能,而英伟达比拼的是芯片互联技术以及软件调用和生态系统的维护。对于这两个壁垒,DeepSeek确实都稍微冲击到了它的溢价,但并没有把壁垒完全冲垮。
具体来说,对英伟达溢价的冲击体现在:
- MOE的优化实际上在一定程度上削弱了英伟达互联的这一部分重要性。现在的情况是,我可以把不同的expert放在不同的计算卡上,使得卡与卡之间的互联不再那么关键。而且,一些暂时不需要工作的expert可以进入休眠状态,这对于英伟达互联技术的需求确实带来了一定冲击。
- 另一方面,在CUDA方面,这其实是在告诉大家,现在存在一种新的可能性。以前大家可能都认为绕不开CUDA,而现在我们的(指DeepSeek)团队已经证明,确实可以“绕开”CUDA,直接使用PTX进行优化,这并不意味着所有团队以后都具备这样的能力,但至少,它提供了一种可行的方案——也就是说,现在有可能做到这件事。而这种可能性会导致,未来我不一定非要购买英伟达的显卡,或者说,不需要最先进的英伟达显卡,或者可以使用更小型的英伟达显卡来运行模型。
泓君:什么叫做绕过CUDA,它是真的绕过CUDA了吗?我听到的说法是说,它用的不是CUDA比较高层的API,但还是用了比较底层的API。
John Yue:对,我用词不太准确,准确地说并没有完全绕过CUDA的生态,而是可以直接调用更底层的库,不是使用高层API,而是直接调用PTX(并行线程执行)——这是一个指令集上面一层的指令集层级,然后在这一层直接进行优化。不过这也是一个很大的工程,并不是任何一个小公司都有能力去做这件事情。
来源:medium
泓君:如果DeepSeek具备了这种能力,其他公司是否也能获得类似能力?假设现在买不到英伟达的GPU,转而使用AMD的GPU,那你刚才提到NVIDIA的两个核心壁垒:NVLink和CUDA,在某种程度上受到冲击,这对AMD这样的公司来说是否是一个利好?
John Yue: 短期来看对AMD是个利好,因为AMD最近已经宣布将DeepSeek给移植过去了。但长期来看,可能还是英伟达占优势。这毕竟只是DeepSeek这一个模型,而CUDA厉害的地方在于它是通用的GPU调用系统,任何软件都可以用CUDA。DeepSeek这种做法只支持DeepSeek自己,如果有新的模型出现,还要重新适配一次。
我们就是在赌DeepSeek是否真的能成为业界标准,成为下一个OpenAI,让所有初创企业都在它的基础上构建。如果是这样,对AMD来说确实不错,因为它已经完成了DeepSeek的移植。但如果不是DeepSeek呢?DeepSeek的优势主要在于对强化学习和GRPO这些方法的改进。如果后面出现更多使用其他方法的模型,那又要重新适配,比起直接用CUDA要麻烦得多,还不如直接用Cuda。
泓君:所以你的核心观点是它动摇了英伟达的两大核心壁垒NVLink和Cuda,那从GPU的需求上来看呢?
John Yue: 我没觉得动摇了这两个壁垒, 目前英伟达的两个壁垒还是很坚挺的,只是对溢价有冲击,可能你收不了那么高的价格了,但这不意味着其他竞品能突然就进来。
泓君:它是一个非常漫长的过程?
John Yue:其他竞品做的跟这两个壁垒不太一样。可以针对单个模型绕过CUDA,但还没人能做出通用的替代方案。所以实际上没有撼动英伟达的壁垒。就像一堵墙,大家以前都觉得翻不过去,现在DeepSeek跳过去了。那其他人能不能过来呢?它只是提供了一个精神上的鼓励。
泓君:对GPU的需求会减少吗?因为DeepSeek这次训练成本低,从某种程度上来说,股价下跌也意味着,是不是用更少的GPU就能训练出更好的模型了?
John Yue:如果只看训练这一个模型的话,确实是这样。但DeepSeek真正的重大意义在于重新激发了AI从业者的热情。这样看的话,应该会有更多的公司进入市场,他们会购买更多的芯片。所以这件事可能会导致溢价降低但销售量增加。至于最终市值是增加还是减少,要看这个比例关系。
泓君:你怎么看?
John Yue:这个不好说,关键还是要看应用。到2025年,大家能开发出什么样的应用。如果之前应用发展的主要阻力是GPU价格的话,那随着价格降到十分之一甚至更低,这个阻力就消除了,市值应该会上涨。但如果主要阻力在其他方面,那就很难说了。
泓君:其实就是说,随着AI应用的增多,DeepSeek降低了门槛,从GPU需求来看,整体上反而对英伟达更有利。
John Yue:对。因为这些应用开发者不会自己组建团队去重复DeepSeek的工作,比如绕过Cuda去调用PTX。一些小公司他们需要开箱即用的解决方案。所以这对英伟达有利,英伟达最希望看到的就是更多AI公司的出现。
泓君:更多的AI公司出来,他们需要的是训练模型的GPU,还是更多的推理?
John Yue:我个人觉得,推理芯片领域未来也会是英伟达,我不觉得这些小公司长期有一些优势,它短期大家都有优势。长期我觉得推理是英伟达,训练也是英伟达。
泓君:为什么推理也是英伟达?
John Yue:因为它还是CUDA,还是这个行业的龙头。刚才提到的两个壁垒也没有被动摇。
现在的ASIC(专用集成电路)公司主要面临两个问题:软件支持不足,硬件缺乏壁垒。在硬件上,我没看到很强的壁垒,大家基本趋于同质化。
软件则是另一个大问题。这些ASIC公司在软件维护方面做得都不够好,连PTX层面的维护都不够完善。这两个因素导致英伟达还是一直占有龙头地位。
泓君:推理芯片对软件的要求也同样高吗?在整个GPU跟训练的这个芯片上,英伟达有绝对的垄断地位,因为你是离不开或者很难绕过这一套系统的,但是推理训练上,方便绕过去吗?
John Yue:推理对软件要求也很高,还是需要调用GPU的底层指令。Grok在软件方面比英伟达差距还很大。你看他们现在的模式越来越重,从最初只做芯片,到现在自建数据中心,再到做自己的云服务。等于是在构建一个完整的垂直产业链。但它的资金跟英伟达相比差距很大,凭什么能做得更好?
泓君:现在市场上有值得关注的芯片公司吗?
John Yue:我觉得AMD有一定机会,但其他的ASIC公司可能还差一些。即便是AMD,与英伟达相比也还有很长一段距离。
我个人觉得,如果要在芯片领域创新,可能更应该聚焦在芯片的软件维护上,而不是在硬件上做改变。比如在DDR(双倍数据速率)、Tensor Core(张量计算核心)、CUDA Core(通用计算核心)之间调整比例,这其实意义不大。这样做等于是在帮英伟达当大头兵,看看这种比例的产品是否有市场,但你建立不了什么壁垒。
但是在软件这块还有很大的优化空间,比如开发一套比CUDA更优秀的软件系统。这可能会有很大的机会,但也不是一件容易的事情。
03 开源生态:降低AI应用的准入门槛
泓君:你们觉得DeepSeek选择开源的这条路,对行业的生态具体会有哪些影响?最近在美国的reddit上,很多人已经开始去部署DeepSeek的模型了。它选了开源以后,这个开源到底是怎么去帮助DeepSeek把模型做得更好的?
John Yue:最近我们也部署了一些DeepSeek的模型在我们平台上面,我觉得他开源是一件对整个AI行业非常好的事情。因为去年下半年以后,大家会感觉有一点失落,因为AI应用看起来都起不来。起不来有一大原因就是很多人觉得Open AI把所有应用的壁垒都能打掉了个百分之八九十,大家都是比较惶恐的。就是我做一个什么东西,明年OpenAI出个o4,就把我东西全部覆盖了。
那我如果做这个东西建立在OpenAI上的话,它出一个新的模型,把我的应用完全包含进去了;我在价格上也没法跟他争,我在功能上没法跟他争,这就导致很多公司不太敢去做,VC也不太敢进来。
这次DeepSeek开源,对整个行业的一个好处:我现在用的是一个开源做得非常好的一个模型,那这样的话我有一定的这种连续性,我就有更大的更多的信心去做更多的应用。
DeepSeek如果有能力去超过OpenAI的话,那对整个行业就更好了。就等于说是有一条恶龙现在它不存在了,大家发展的就能更好一些。
更多人用它,它就跟LlaMA的逻辑是一样的,有更多人用,有更多反馈,所以它的模型能做得更好。DeepSeek也是这样,如果有更多的应用开发者,它收集数据的速度肯定是比其他模型快很多。
泓君:现在我们能看到一个开源的模型,它在整个的性能上已经跟OpenAI的o1,基本上是一个量级的。那可以预期OpenAI它发了o3 mini之后,开源模型可能也会升级,也会有下一个版本再来超过这些闭源模型的。我在想当一个开源模型它的性能足够好的时候,OpenAI这些闭源模型它存在的意义是什么?因为大家就直接可以拿到最好的开源模型的底座去用了。
John Yue:DeepSeek的意义在于它的价格降了很多,它是开源的。
不是说比OpenAI已经好了。闭源模型还会是领先的一个趋势。开源的意义可能就在于它会像安卓一样,谁都可以用,然后非常便宜。这样它降低了进入行业的门槛,所以它才是真正让这个行业蓬勃的一个因素。
这些闭源的模型它有可能是一直领先的。闭源如果还不如开源,那可能就没有意义,但它应该是有管理上面的优势,可以超过开源模型。
泓君:那现在看起来确实是有一批闭源不如开源的。
John Yue:那就自求多福,如果闭源还不如开源,我也不知道这公司在干什么,你还不如免费好。
陈羽北:我觉得开源的生态是非常重要的。因为我除了在实验室以外,我之前参与一家公司叫AIZip,也做很多的全栈的这种AI应用。然后你会发现一件事情,很多这种开源的模型你直接是无法使用的,就是产品级的东西你无法直接使用这些开源的模型。但是如果有这样的开源的模型,可能会大大提高你生产出一个这种产品级的模型的能力,大大提高你的效率。
所以你像DeepSeek也好,LlaMA也好,我觉得这种开源的这种生态对于整个的社区来讲是至关重要的一件事情。因为它降低了所有的AI应用准入门槛。那见到更多的AI的应用,它有更多的触及这件事情是对于每一个做AI的人是一个非常利好的消息。
所以我认为Meta在做的这件事情很重要,LlaMA一直在坚持开源构建,这样让所有的AI的开发者都可以做自己的应用,虽然LlaMA并没有把这个应用直接给你做完,他给你提供了一个Foundation。Foundation顾名思义它就是一个地板,对吧?你可以在这个地板之上,你可以构建你所想要构建的这种应用,但是他把90%的任务给你做好了。
我认为更好的Foundation对于整个生态是非常重要的。OpenAI下大功夫来优化的一些能力的话,它依然会有这样的优势。但是我们也不希望这个市场上只有OpenAI,那对于所有的人来讲可能都是一个不利的消息。
04 API价格下降与小模型的想象空间
泓君:DeepSeek是怎么把API接口的价格给降下来的?因为我看了一下它的这个R1官网写的是,每百万输入的Token,缓存命中的是1块钱,缓存未命中的是4块钱,每百万输出的Token是16块钱。o1的价格我整体算了一下,差不多每个档位都是他们的26到27倍之高。它是怎么把这个API的成本给降下来的?
John Yue:它等于是从上到下做了整个的一套优化。从PTX这块怎么调用,底下的GPU到MOE的架构,到Low Balance,它都做了一套优化。
这里面可能最重要的一点,就是它可以降低了对芯片的要求。你本来非得在H100上,A100上跑,你现在可以用稍微低端一些(的芯片),或者你甚至可以用Grok。你可以用国内的那些严格版的H800这些卡去跑。那这样,它其实就已经大幅度地降低了每个Token的成本。
它里头如果再做优化,比如切分GPU,它其实可以降下来很多。而且OpenAI内部其实也说不定人家早都降下来了,它只是不想降Retail的价格,这也不确定。
我觉得主要就是这两个吧,一个是架构上,一个是芯片,可以降级了。
泓君:芯片降级未来会成为行业的普遍现象吗?
John Yue:我觉得不会,因为英伟达已经停产了所有老芯片,市面上数量有限。比如说虽然可以在V100上运行,但V100早就停产了。而且每年都要计算折旧,可能过两年市面上就找不到V100了。英伟达只会生产最新的芯片。
泓君:那它的成本还是低的吗?
John Yue:如果在新芯片上做一些优化,比如我们这种GPU切分方案,成本是可能降低的。因为模型变小了。我们最近运行它的7B模型,只需要大约20GB。我们可以把一张H100切成三份来运行DeepSeek,这样成本直接降低三分之一。
我觉得未来可能会更多地使用虚拟化GPU来降低成本。仅仅依靠老卡和游戏卡是不现实的,原因有几个,一是英伟达有黑名单机制,不允许用游戏卡正式部署这些模型;老卡除了停产问题,还有很多维护方面的问题。所以我不认为芯片降级会成为主流现象。
泓君:所以现在你们是在为客户提供芯片优化,帮助节省成本。那你最近客户应该是暴增,你觉得这个是受益于DeepSeek,还是说你们一直在做这件事情?
John Yue:我们从去年就开始做这件事,一直在赌未来会有更多的小模型。DeepSeek出来后,就像刚才说的,它带来了一个趋势,会蒸馏出更多的小模型。如果大家要运行更多小模型,就需要不同型号的芯片,每次都用物理芯片可能比较困难。
泓君:DeepSeek降低了整个API成本,你刚才也分析了它的研究方法。你觉得这套研究方法未来有可能用在更多场景中吗,比如你们在做GPU分片和客户模型时?会不会引发整个行业对GPU成本的节省?
来源:DeepSeek Platform
John Yue: 应该可以。DeepSeek的出现向行业证明了现在有更优的强化学习方法。我觉得后面肯定会有很多人采用相同的方法。在调用CUDA这块,以前可能没人敢尝试,他们证明了几个博士毕业生也能很快绕过CUDA,后面可能很多模型公司都会效仿,这样大家都这么做的话,成本肯定会下降。
泓君:所以我理解现在训练成本降低了,推理成本也大幅下降了,那你们现在帮客户去部署这种GPU的时候,客户的主要需求是什么?
John Yue:简单便捷、快速部署和低价格。我们能解决部署成本问题,因为确实存在很多浪费。比如一张A100或H100都是80GB,但如果你要蒸馏出一些小模型,或者使用现有的Snowflake、Databricks那种模型,可能只需要10GB,有的更小。在80GB的GPU上部署10GB的内容,就等于大部分GPU都浪费了,但你还是要支付整个GPU的费用。
另外,推理(Inference)时工作负载是弹性的,有时客户增多,有时减少。如果每张卡上都有浪费的空间,扩展时每张卡都会有这样的浪费。我们现在做的是将其虚拟化,这样就完全没有浪费,就等于比较简单粗暴地解决了很多GPU部署成本的问题。
陈羽北:这个领域其实还有一个有意思的方向,小模型在过去6到8个月的进展非常快,这可能带来一个变革。之前全世界99%的算力对大家是不可见的,人们不会意识到ARM芯片或高通芯片里具备AI能力。未来如果有大量小语言模型、视觉语言模型(VLM)、音频智能等能力,可能会越来越多地出现在曾经不会被用到的平台上,比如特斯拉的车上已经用到了很多。
你会发现越来越多的设备,比如手机、耳机、智能眼镜,现在是一个火爆品类,很多公司都在做,都会搭载设备端On-Device AI。这对降低成本、提高AI可用性有巨大机会。
泓君:小模型好用吗?
陈羽北:小模型其实在很多的领域有很多的基本的应用。当你把小模型给到足够的训练以后,它最终和大模型的性能差不多。
泓君:说一个具体的应用场景。
陈羽北:比如说,我们用到这个话筒,里面有降噪功能,可以用一个极小的神经网络实现,这个神经网络可以放在话筒里。即使把模型放大10倍、100倍,性能差异也不会很大。
这样的功能会越来越多地被集成进来,比如小语言模型可以放在智能手表上,做一些基本的问答、调用API,完成基本工作。更复杂的任务可以转移到云端,形成分层的智能系统。现在一个智能手表就能做非常复杂的推理了。手机上的高通芯片,推理能力可以达到50TOPS(每秒万亿次操作),这是一个很大的算力,与A100相差不大。很多小模型可以胜任大模型已经在做的事情,这对降低成本、提高AI的普及程度有很大帮助。
泓君:小模型是本地的还是联网的?
陈羽北:本地的。
泓君:所以未来我们整个世界里面可能会有各种各样的小模型。当这个小模型不够用的时候,它再去调动这种大模型,这样就可以极大地节省这一部分的推理成本?
陈羽北: 对,我认为未来AI的基础设施应该是分层的。最小的可以到终端设备,在传感器里做一些基本的运算。在边缘端会有更多的AI功能,再到云端,形成端-边-云的完整体系。
我之前提到过一个数字,如果做个简单计算,把全世界终端和边缘端的算力加起来,会是全球HPC(高性能计算)中GPU算力的100倍。这是个非常可怕的一件事,因为体量太大了。高性能GPU的出货量可能在百万片级别,但手机和边缘端设备可能达到百亿级别,到传感器这个级别可能还要再大一两个数量级。当体量上去后,加起来的算力是极其庞大的。
泓君:那芯片够用吗?比如说高通的芯片。
陈羽北:它可以做很多很复杂的功能。从小语言模型到VLM(视觉语言模型),再到音频的ASR(自动语音识别)等。对于这些我称之为"初级AI功能"的任务,无论是代理型还是感知型,在边缘平台和终端设备上都能完成。最复杂的任务则会转移到云端处理。
另一个是全球90%到99%的数据其实都在终端和边缘端。但现在大多数情况下是“用掉就丢”(use it or lose it)。比如,你不可能把摄像头的所有视频都传到云端。如果在终端和边缘端有AI功能,就可以筛选出最有价值的数据上传,这的价值是巨大的。目前这些数据都还没有被充分利用。
未来当初级AI功能增多后,这些初级AI模型反而可以作为大模型的一种数据压缩工具。
泓君:现在大家部署的是DeepSeek的小模型吗,还是LlaMA的?
陈羽北:其实可能都不是。整个生态里有Qwen,LlaMa,还有DeepSeek,也有很多自研的,所以我觉得整个生态里面,只能说是越来越多的这样的小模型在涌现,而且它们的能力在快速提高。
泓君:选模型看重什么关键点?
陈羽北:首先是效率问题:模型必须运行快速,体积要小。
但更重要的是质量要求:没有人会为一个又快又小但不好用的模型付费。模型必须能够胜任它要处理的任务。这就是我所说的AI鲁棒性,这一点非常重要。比如说话筒的降噪功能,它必须能保证音质。如果处理后的声音很粗糙,没人会使用它,大家还是会选择用后期处理软件。
泓君:所以在应用端的话,大家看的并不是说最前沿的模型是什么,而是说最适合我的模型是什么,然后选成本最低的就可以了。
05 提问DeepSeek:数据与持续创新能力
泓君:因为现在关于DeepSeek很多的信息都已经公开出来了,你们对这家公司还有没有非常好奇的问题?
陈羽北:在他们发表的文章中,具体的数据构成并没有被详细披露,很多训练细节也只是在宏观层面提及。当然,我理解不是所有内容都应该公开,这个要求不合理。但如果能提供更多细节,让其他人更容易复现这项工作,可能会更好。所有前沿研究实验室都有这样的趋势,在涉及数据这块时都比较含糊。
泓君:有些连OpenAI都不敢写,所有的大模型公司问到数据他们都是不敢答的。
陈羽北:连数据是如何平衡的、时长以及具体的处理流程这些都没有写出来。我理解不写具体的数据组成,但至少可以写一下数据是如何整理的。但很多时候这些细节大家都不写,而我觉得这些恰恰是最关键的部分。其他一些方法反而很容易想到,比如用搜索方法来做推理规划,或者当模型够好时,用自举方法提高性能,再或者用大模型直接自举出结果给小模型。
真正难想到的是两个方面:数据的具体构成和架构中的底层创新。我觉得这些才是最关键的内容。
John Yue:我比较关注DeepSeek这家公司是否能持续给大家惊喜,继续挑战OpenAI。如果它能不断给我们带来惊喜,让大家最终都在DeepSeek上开发应用,那对整个芯片和基础设施领域的格局确实会带来较大改变。
就像我刚才说的,DeepSeek已经绕过CUDA去适配很多东西,如果它能继续保持这个位置,其他芯片厂商可能也会有机会,这对英伟达的生态系统也会构成一定挑战,溢价肯定会下降。但如果下一个模型,比如Llama 4出来,假如它比DeepSeek好很多,那可能又要重新回到起点。