记者实测 | DeepSeek-R1对决四款主流推理模型：基础题意外“翻车”，高难度推理碾压ChatGPT o1

1月20日发布的DeepSeek-R1模型让开发公司DeepSeek在全球的热度持续攀升。1月27日，DeepSeek接连登顶苹果中国和美国地区应用商城的免费应用排行榜，甚至超越了大众熟知的ChatGPT。

诸多测评结果显示，DeepSeek旗下模型R1在多个基准测试下都能匹敌甚至超越OpenAI、谷歌和Meta的大模型，而且成本更低。在聊天机器人竞技场综合榜单上，DeepSeek-R1已经升至全类别大模型第三，其中，在风格控制类模型（StyleCtrl）分类中与顶尖推理模型OpenAI o1并列第一。其竞技场得分达到1357分，略超OpenAI o1的1352分。

据外媒报道，Meta专门成立了四个专门研究小组来研究DeepSeek的工作原理，并基于此来改进旗下大模型Llama。

其中两个小组正在试图了解DeepSeek如何降低训练和运行成本；第三个研究小组则在研究DeepSeek训练模型可能用到的数据；第四个小组正在考虑基于DeepSeek模型属性重构Meta模型。

《每日经济新闻》记者也对炙手可热的R1模型与四款主流推理模型——OpenAI的ChatGPT o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字节跳动的豆包1.5Pro和月之暗面的Kimi 1.5——进行了对比测试。测试结果显示，DeepSeek在难度最低的简单逻辑推理问题上表现不佳，但在高难度问题上表现可圈可点，不仅回答正确，还在速度上击败了o1。

DeepSeek旗下模型极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降。多家券商研报指出，算力需求会加速从预训练向推理侧倾斜，推理有望接力训练，成为下一阶段算力需求的主要驱动力。

记者实测：DeepSeek简单问题出错，高难度问题完胜，并在速度上击败o1

《每日经济新闻》记者对DeepSeek-R1以及市面上的几款主流推理模型进行了对比测试，包括o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字节跳动的豆包1.5Pro和月之暗面的Kimi 1.5。

记者选择了三个问题对以上五款模型进行测试，难度依次升级（分别为一级到三级），依次评估模型的整体表现。由于DeepSeek的模型并不具备多模态功能，所以未进行多模态相关测试。

首先需要明确的是，推理模型与传统的大语言模型在输出方式上采用了两种不同的模式。传统的大语言模型对于模型的输出采用的预测模式，即通过大规模的预训练猜测下一个输出应该是什么。而推理模型则具备自我事实核查能力，能够有效避免一些常见错误，使之输出逻辑更接近人类自身思考推理的过程。所以，推理模型在解决问题时通常比非推理模型需多花费几秒到几分钟，在物理、科学和数学等领域，其可靠性更高，但在常识领域可能有着效率不高的问题。

DeepSeek推理过程示意图

难度I|三个灯泡问题：五大模型全部通关

首先，记者选择了一道简单的思维问题：在一个黑暗的房间里，有三个开关，分别控制着房间外的三个灯泡。你站在房间里，不能看到灯泡，只能通过开关控制它们。你只能走一次出去检查灯泡，如何确定每个开关控制哪个灯泡？

五个模型都很快得出了正确答案，在这个简单的问题上没有分出区别。

豆包

DeepSeek

Kimi

Gemini

难度II|囚犯帽子颜色推理：DeepSeek、Kimi犯错，Gemini耗时最短且完全正确

接下来问题升级：有四位囚犯排队站好，囚犯1号能看见囚犯2号和囚犯3号；囚犯2号可以看见囚犯3号；囚犯3号看不见任何人；囚犯4号也看不见任何人。他们知道一共有4顶帽子，2黑2白，但并不知道自己头顶的帽子是什么颜色。请问谁会是第一个知道自己头顶的帽子是什么颜色并且迅速喊出来的人？

在这个问题上，DeepSeek和Kimi都犯错了，两者在推理过程中推导出了一种情况，但正确选项应该是两种。

Kimi

DeepSeek

而Gemini、豆包和o1都回答正确。其中，Gemini推理速度最快，仅用了6.8秒就得出了结果，最慢的是o1，耗时1分02秒。

Gemini

豆包

难度III|研究生级别数学题：DeepSeek-R1完胜，且用时最短

评测结果显示，DeepSeek在科学领域如数学能力上排名第一。于是，记者找来了一道研究生级别的数学题进行测试：找出所有阶为147且不包含阶为49的元素的两两不同同构群（出自美国南加州大学博士资格考试）。

在这一问题上，DeepSeek-R1没有“辜负”评测，表现最好，找出了三个解。除o1外的其他模型只找出了两个解，而且，Kimi在推理过程中还开启了联网查询功能进行辅助推理，但仍然少了一个解。

虽然o1也找出了三个解，但耗时更长，用了4分17秒得出答案，而DeepSeek-R1只花费了2分18秒。

DeepSeek

豆包

Gemini

Kimi

综合各项测试来看，DeepSeek存在一个反常识的问题，即在难度不高的问题上表现不如其他模型好，甚至可能会出现其他模型不会出现的错误。但是当难度提升到专家级别的程度上时，DeepSeek的表现反而变成了最好的模型。

这就是说，对于需要专业知识辅导的从业人员或研究人员来说，DeepSeek是一个好的选择。

DeepSeek力压ChatGPT登顶苹果应用榜

1月27日，苹果App Store中国区免费榜显示，近一周全球刷屏的DeepSeek一举登上首位。同时，DeepSeek在美国区苹果App Store免费榜从前一日的第六位飙升至第一位，超越ChatGPT、Meta旗下的社交媒体平台Threads、Google Gemini，以及Microsoft Copilot等AI产品。

许多科技界人士都在大肆宣扬该公司所取得的成就及其对AI领域的意义。

例如，著名投资公司A16z创始人马克安德森27日表示，DeepSeek-R1是AI的斯普特尼克时刻（注：这是指1957年10月4日苏联抢先美国成功发射斯普特尼克1号人造卫星，令西方世界陷入一段恐惧和焦虑的时期）。

DeepSeek-R1在一些AI基准测试上匹敌甚至超越了OpenAI的o1模型。DeepSeek-R1在聊天机器人竞技场综合榜单上排名第三，与顶尖推理模型o1并列。

在高难度提示词、代码和数学等技术性极强的领域，DeepSeek-R1拔得头筹，位列第一。

在风格控制方面，DeepSeek-R1与o1并列第一，意味着模型在理解和遵循用户指令，并按照特定风格生成内容方面表现出色。

在高难度提示词与风格控制结合的测试中，DeepSeek-R1与o1也并列第一，进一步证明了其在复杂任务和精细化控制方面的强大能力。

图片来源：聊天机器人竞技场

Artificial-Analysis对DeepSeek-R1的初始基准测试结果也显示，DeepSeek-R1在AI分析质量指数中取得第二高分，价格是o1的约三十分之一。

图片来源:Artificial-Analysis

预训练时代将终结，推理正在崛起

DeepSeek旗下模型极低的训练成本或许预示着AI大模型对算力投入的需求将大幅下降。

“AI预训练时代无疑将终结。”2024年12月13日，在温哥华NeurIPS大会上，OpenAI联合创始人兼前首席科学家伊利亚•苏茨克维尔（Ilya Sutskever）直言。

在这场演讲中，Ilya Sutskever将数据比作化石燃料，而燃料终将耗尽。“算力在增长，但数据却没有增长，因为我们只有一个互联网……我们已经达到了数据峰值，不会再有更多数据了，我们必须处理好现有的数据。”现有数据仍可推动AI进一步发展，业内也正在竭力挖掘新数据进行训练，这种情况最终将迫使行业改变目前的AI模型训练方式。他预计，下一代AI模型将是真正的AI Agent，且具备推理能力。

预训练是指使用大量数据训练AI模型的过程，通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成，耗时较长，成本高昂。推理是指将训练好的模型应用于实际任务（如生成文本、识别图像、推荐商品等），通常需要低延迟和高吞吐量。推理过程可以在云端或边缘设备（如手机、自动驾驶汽车）上进行。

推理模型其最突出的地方在于，在给出回答之前，模型会思考，通过产生一个很长的内部思维链（CoT），逐步推理，模仿人类思考复杂问题的过程。

随着各类大模型的成熟，许多企业和开发者可以直接使用预训练模型，而不需要从头训练。对于特定任务，企业通常只需对预训练模型进行微调，而不需要大规模训练，这减少了对训练算力的需求。预训练时代或许行将落幕，推理正在崛起。

近几日，多家券商研报都指出，算力需求会加速从预训练向推理侧倾斜，推理有望接力训练，成为下一阶段算力需求的主要驱动力。

巴克莱12月的报告预计，AI推理计算需求将快速提升，预计其将占通用人工智能总计算需求的70%以上，推理计算的需求甚至可以超过训练计算需求，达到后者的4.5倍。英伟达GPU目前在推理市场中市占率约80%，但随着大型科技公司定制化ASIC芯片不断涌现，这一比例有望在2028年下降至50%左右。

免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。