DeepSeek的用人观：学霸、年轻人、禁止赛马

文｜周鑫雨

编辑｜苏建勋

被雷军亲自挖到小米的“天才95后少女”、曾任DeepSeek模型训练员的罗福莉，揭开了DeepSeek人才画像的冰山一角：年轻、优秀的应届毕业生。

正是这一群“高深莫测的奇才”（OpenAI前政策主管Jack Clark评价），仅用600万美元，训练出性能超越GPT-4o和Claude 3.5 Sonnet的模型DeepSeek-V3。

DeepSeek创始人梁文峰曾在36氪的采访中，给出了这一群员工的大致画像：“都是一些Top高校的应届毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。”

但仅仅组建一支天才梯队，对实现DeepSeek的AGI理想是不够的。

通过与多位相关人士的访谈，《智能涌现》发现，DeepSeek想要用好这一群年轻的天才，离不开团队的管理方式。

当下，随着团队规模的飞速扩张，不少AI公司不得不采用更为高效的垂直管理模式。

但自2023年5月成立以来，DeepSeek将团队一直控制在150人左右的规模，并采用一种淡化职级、极为扁平的文化，去确定研究课题，并调动资源。

而创新，就发生在这一群未经验证过的年轻天才，和一家采用非互联网组织形式的公司中。

百名年轻天才，不赛马，不带团队

聘请具有AI技术经验的老将出山，是大多AI公司的选人策略。

比如王小川为百川智能，搬来的是20年前的搜狗老班底；微软出身的姜大昕，在成立阶跃星辰之初，招徕的也是微软亚研院的老同事。而零一万物的联合创始人名单，起初更是星光熠熠，包括：

出身微软亚研院的黄文灏，前谷歌大脑首位研究软件工程师、前字节跳动AI平台负责人潘欣，以及前贝壳集团策略算法中心负责人李先刚。

但DeepSeek，偏爱没有工作履历的年轻人。

一名曾与DeepSeek有过合作的猎头告诉《智能涌现》，DeepSeek不要资深的技术人，“工作经验在3-5年已经是最多的了，工作超8年的基本就pass了”。

比如，DeepSeekMath的其中三名核心作者，朱琪豪、邵智宏、Peiyi Wang，是在博士实习期间完成了相关的研究工作。再比如，V3研究成员代达劢，2024年才刚从北大获得博士学位。

代达劢。图源：网络

没有工作履历，DeepSeek衡量年轻毕业生“优秀”与否的标准，除了院校，还有竞赛成绩。另有多名DeepSeek的第三方合作机构表示，DeepSeek对竞赛成绩看得非常重，“基本金奖以下就不要了”。

一名DeepSeek成员曾在网络上披露自己的履历：毕业于北大，在三场ACM/ICPC（国际大学生程序设计竞赛）比赛均获金奖。本科期间共发了6篇论文，两篇共同一作，基本都是顶会。

据《智能涌现》了解，2022年，幻方量化就开始为DeepSeek组建AI团队。2023年5月，当DeepSeek正式成立，团队已有近百名工程师。

如今，不包括位于杭州的基础设施团队，北京团队的工程师也有百人规模。技术报告的致谢名单显示，参与DeepSeek V3研究的工程师，已经有139人。

百人规模的团队，与字节、百度等动辄千人的模型雄兵，在人才规模上显得捉襟见肘。但在“人才密度”的分量远超“人员规模”的AI创新领域，不少人对《智能涌现》形容，DeepSeek是一支全员精锐的团队。

如何管理、留住这一群年轻的天才？一方面，是粗暴地砸钱、给卡。

知情人对《智能涌现》表示，DeepSeek薪酬水平对标的是字节研发，“根据人才能拿到的字节offer，再往上加价”。

与此同时，只要梁文峰判断技术提案有潜力，DeepSeek给人才的算力，“不限”。

另一方面，DeepSeek采取的是相当扁平和“学院派”的管理方式。

上述猎头表示，DeepSeek每个成员不带团队，而是根据具体的目标，分成不同的研究小组。组内成员之间没有固定分工和上下级关系，“每个人都负责自己最擅长解决的部分，遇到困难就一起讨论，或者向其他组的专家讨教。”

梁文峰曾在36氪的访谈中将这种组织形式形容为“自下而上”“自然分工”：“每个人有自己独特的成长经历，都是自带想法的，不需要push他……当一个idea显示出潜力，我们也会自上而下地去调配资源。”

行业内，不少创业者也将“扁平”，视作适用于创新业务的组织模式。“平等沟通对建立一个学习型组织很重要，淡化岗位身份会更鼓励大家畅所欲言。”王慧文成立AI公司光年之外之初，曾对《智能涌现》表示。

OpenAI联创Greg Brockman也曾提到，OpenAI的工作岗位没有研究员和工程师之分，统称为“Member of Technical Staff”。这意味着，主流意义上的“初级工程师”也能在研究项目中挑大梁。

一个“自然分工”的典型成果，就是让V3训练成本大降的关键训练架构，MLA。梁文峰提到，MLA最初来源于一个年轻研究员的个人兴趣，“我们为此组了一个team，花了几个月时间才跑通”。

与此同时，DeepSeek内部不赛马——据一名接触过DeepSeek团队的AI从业者表述，这是为了杜绝赛马造成的人力、资源浪费，“也不利于人才的留存和团队共识的形成，赛马机制造成的内耗太严重了”。

“想要创新，团队必须摆脱惯性”

2023年，国内AI顶尖人才画像的几个标签——学术大牛、大厂高管、创业老兵——都指向同一个用人标准：这些人才，需要被职级、产品影响力等职场标准验证过。

但很明显，2024年以来，AI行业的用人标准，正在产生变化。更多尚未经过职场验证、刚毕业不久的年轻人，正走到台前。

Sora其中一位负责人Aditya Ramesh曾在2024年智源大会上表示，OpenAI的招聘策略与其他组织非常不同，“我们更关注那些有高潜力，但可能还没机会获得正式学术成绩的人”。

同样，DiT（Sora底层架构）作者谢赛宁也提到，有很多非常成功的研究人员并没有真正经历所谓的传统研究、正式的研究培训。

谢赛宁和Aditya Ramesh在智源大会上的对谈。图源：智源

类似的招聘观念，也体现在DeepSeek的选人策略上。加入DeepSeek的年轻人，不少都没有模型训练的相关经验，甚至不是计算机专业出身。

一名毕业于物理专业的DeepSeek成员曾公开提到，自己是一次偶然机会自学了计算机，“由于工作太前沿，几乎没有什么参考资料，一切问题都是自己设计方案并实践解决的”。另有一名DeepSeek运维工程师提到，加入公司前，自己是没有任何相关经验的“小白”。

“想要创新，团队必须要摆脱惯性。”一名AI从业者对《智能涌现》表示，如今大部分国内AI公司，已经陷入了浅显模仿OpenAI的惯性，算法就选Transformer，训练就遵从Scaling Law，“跟随被验证过的路径，就能降低失败的风险。”

但大家往往忽视，在被GPT-3验证前，Transformer和Scaling Law也被视作是“疯狂的事”。

“DeepSeek没有给成员设定硬性的kpi，也没有商业化的压力，成员没有太多模型训练的经验，反而能让他们不会去抄OpenAI的‘标准答案’。”

上述从业者表示，一名DeepSeek的员工曾告诉他，“如今很少有厂商会从调整Transformer去做文章，但DeepSeek对算法架构的反思，是从第一天就开始的。MLA（DeepSeek自研的架构）其他厂商未必做不出来，但是他们不会想要推翻原有的正确答案。”

但他也坦言，DeepSeek的底气，还是来源于充足的算力和钱，“所有的资源都投到模型训练一件事上，他们没有其他业务，也不烧钱做投放，省了不少钱”。

“DeepSeek不招有名的大佬，他们很少有创新的动力。”与DeepSeek曾合作过的一名猎头对《智能涌现》总结，“曾经的成功者已经成功过了，他们身上有不允许失败的包袱。创新的事，还是交给新人去做。”

欢迎交流！

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦