编译丨王聪

编辑丨王多鱼

排版丨水成文

最近,一家来自中国杭州的初创公司深度求索(DeepSeek)凭借发布的两款大语言模型(LLM),在全世界科技界掀起波澜,这两款模型的性能可与美国科技巨头开发的主流工具相媲美,但研发成本和所需算力却只是其一小部分。

2025 年 1 月 20 日 ,DeepSeek 发布了DeepSeek-R1,这是一个部分开源(训练数据未公开,因此并非完全开源)的“推理”模型,能够以与 OpenAI 于 2024 年年底发布的最先进的专注于“推理”的大语言模型GPT-o1相近的水平解决一些科学问题。

几天后的 1 月 28 日,DeepSeek 推出了另一款模型——Janus-Pro-7B,能够根据文本提示生成图像,也就是所谓的“文生图”,其性能与 OpenAI 的DALL-E 3以及 Stability AI 的Stable Diffusion相当。

国际顶尖学术期刊Nature在其官网连续发布了 3 篇文章报道 DeepSeek。

1 月 29 日,Nature发布了题为:Scientists flock to DeepSeek: how they’re using the blockbuster AI model 的新闻文章。


该文章指出,科学家们正在纷纷涌入 DeepSeek,从 AI 专家到数学家再到认知神经学家,他们为 DeepSeek-R1 的高性能和低成本所惊叹。

1 月 30 日,Nature发布了题为:China’s cheap, open AI model DeepSeek thrills scientists 的新闻文章。


该文章指出,来自中国的便宜的、开放的 AI 模型 DeepSeek 让科学家们兴奋不已,DeepSeek-R1 执行推理任务的水平与 OpenAI 的 GPT o1 相当,而关键是,DeepSeek-R1 向研究人员开源。科学界认为,DeepSeek 的开放非常令人震惊,相比之下,OpenAI 推出的 GPT o1 以及最新成果 o3,基本上都是黑匣子。

当然,DeepSeek-R1 令人印象深刻的还包括其超低成本,DeepSeek 尚未公布训练 DeepSeek-R1 的全部成本,但据估计,训练 DeepSeek-R1 所需的算力租赁费用约为 600 万美元,相比之下,Meta 公司训练 Llama 3.1 405B 的算力是其 11 倍,训练成本超过 6000 万美元。尽管美国限制了中国公司获取用于人工智能的最先进的计算机芯片,但 DeepSeek-R1 还是成功了,这也说明了高效利用资源比单纯依靠计算规模更为重要。这也表明了美国在人工智能领域的建立的优势正在快速缩小。

此外,使用 DeepSeek-R1 界面的用户只需支付运行 ChatGPT o1 费用的不到三十分之一(10美元 vs 370 美元)。此外,DeepSeek 还创建了 DeepSeek-R1 的迷你“蒸馏”版本,以便算力有限的研究人员也能使用该模型。

1 月 30 日,Nature发布了题为:How China created AI model DeepSeek and shocked the world 的新闻文章。


该文章分析了中国是如何创造出震惊世界的 AI 模型 DeepSeek,文章中指出,政策支持大量资金,以及大量的 AI 专业人才,帮助中国企业建立了先进的大语言模型。

如果 DeepSeek-R1 的表现让中国以外的许多人感到惊讶,但国内的研究人员表示,这家初创企业的成功在意料之中,也符合政府成为全球人工智能(AI)领导者的雄心。

中国科学院计算技术研究所副所长陈云霁研究员表示, 鉴于中国在开发大语言模型的公司上投入了巨额风险资本,且拥有众多在科学、技术、工程或数学领域 (包括人工智能) 拥有博士学位的人才,像 DeepSeek 这样的公司在中国出现是不可避免的。即便不是 DeepSeek,中国也会有其他大语言模型能够做出一番成就。

事实上,也确实有。

1 月 29 日,科技巨头阿里巴巴发布了其迄今为止最先进的大语言模型——Qwen2.5-Max(通义千问旗舰版),并称其性能优于 GPT-4o、DeepSeek-V3 以及 Llama-3.1-405B。而上周,月之暗面联合字节跳动发布了新的推理模型Kimi 1.5Kimi 1.5 1.5-pro,并称其在某些基准测试中的表现优于 GPT-o1。

参考资料

https://www.nature.com/articles/d41586-025-00275-0

https://www.nature.com/articles/d41586-025-00229-6

https://www.nature.com/articles/d41586-025-00259-0


ad1 webp
ad2 webp
ad1 webp
ad2 webp