“标王”科大讯飞发布推理模型！算力全国产，数学能力国内第一，惊艳一线教师

智东西
作者陈骏达
编辑漠影

推理模型潮真的来了！

自OpenAI的o1深度推理模型发布以来，国内外已有不少企业陆续发布“类o1”模型，仅在国内便有Kimi-k1、GLM-Zero、DeepSeek-r1等数款模型。

去年年底，OpenAI在罕见的12天连续发布中带来了o3模型，推理能力大幅提升，给担忧大模型发展放缓的业界人士打了一剂强心针，并将这一赛道的热度推向新的高点。

英伟达CEO黄仁勋也在上周的CES主旨演讲中谈到，在传统意义的大算力、大数据、大模型Scale路径之外，业界还可依靠后训练（如强化训练）和模型的测试时计算（即“推理”）来提升模型的性能。

今天上午，作为“AI国家队”、同时也是“大模型标王”的科大讯飞也发布了讯飞星火深度推理模型X1。

依托讯飞在行业、企业落地方面的积累，星火X1成为国内唯一采用全国产算力平台、率先落地到真实应用场景的深度推理模型，并在教育、医疗等领域展现出优势。

星火X1发布后，智东西在第一时间进行了上手实测，星火X1能胜任全学段的大部分数学问题，模型推理速度也比较理想。在全国产算力的基础之上，这一效果更显得难能可贵。下面就让我们来看看这款模型的具体表现吧。

一、难倒一众大模型的数学题，星火X1轻松搞定

数学，一直是许多不具备深度推理、思考能力的大模型绕不过去的一道坎，对星火X1的测试也从这里开始。

在开始测试之前，我们可以先看看其它模型在数学问题上的表现。

最简单的比大小问题，其实已经能难倒部分参数规模较小的模型。

▲左侧为Anthropic Claude 3 Haiku，右侧为微软Phi-4

在高中竞赛题面前，即便是最新的旗舰模型也很难保证高正确率。

▲国内两款旗舰模型回答高中竞赛数学题，回答均错误

参数在几十亿、几百亿不等的模型在困难数学问题上落败其实并不让人感到意外，但为何参数达到上千亿的旗舰模型也无法破解此类难题呢？

其实，模型能力并非影响大模型复杂问题求解效果的唯一因素，是否具备规划、反思、迭代等深度推理能力才是关键。

不具备上述能力的模型在回答问题时，更像是“单次生成”的，模型更多地是凭借自己在预训练阶段培养出的“直觉”、“印象”在回答问题，也不会对前序生成的内容进行判断、验证或是修改。这种方式的优点在于速度快、效率高，但其实与人类在解决复杂问题时的思考模式有很大差异。

而具备深度推理能力的模型则会通过思维链（Chain-of-Thought）等方式将复杂问题分步拆解简化，在生成回答的过程中进行反思、验证。这类模型在训练过程中，还会使用上述推理时产生的数据进行强化训练。

深度推理能力让星火X1能以较高的正确率，解答困难数学问题。在面对这道高考数学多选题压轴题时，星火X1顺利完成了从理解题目到解题再到验证的全流程，答案完全正确。

星火X1在画面右侧呈现了其思考过程，在对话框里撰写主要的解题过程，这种呈现方式对用户的使用体验来说也更为友好。在阅读思考过程中，可以发现星火X1的反思、迭代机制确实发挥了作用：它自己纠正了计算过程中的一个错误。

国内某款同类推理模型虽然用时稍短，但最终的结果有误。虽然它进行了验算，但并未发现其中的问题。

科大讯飞作为一家人工智能企业，布局智慧教育领域已有20余年，目前常态化使用讯飞智慧教育产品的学校数量已超5万所。

具体到数学上，2023年，当大部分模型还处于重理轻文的状态时，讯飞星火就已经凭借比平均得分超出20%的成绩，在《MIT科技评论（中国版）》进行的一场测试中成为数学专项的绝对领先者。

在2024年的科大讯飞1024开发者节上，全新升级的星火4.0 Turbo的数学能力超越GPT-4o，效率相对提升50%。

去年，科大讯飞联合中国教育科学研究院发布了基于“问题链”的高中数学智能教师助手。今天发布的X1或将给讯飞旗下的数学类产品带来更强大的能力。

讯飞介绍，星火X1已参加了从小高初数学（含竞赛）到AIME邀请赛等覆盖全学段的多项考试，得分水平处于业界第一梯队，其中多项指标国内第一。

二、大模型年度标王背后：深度理解行业是关键

尽管AI模型在推理、思考等能力上取得了显著进展，但这仅仅是基础。AI的真正价值不仅在于其技术本身有多先进，还在于能否深度理解行业场景并解决实际问题。

当AI进入行业深水区，通用大模型在领域知识上的相对匮乏、对行业需求的理解不足，以及高昂的使用成本，使得大模型的能力难以直接转化为实际生产力。正因如此，通用基础模型与行业特定需求相结合的行业大模型解决方案应运而生。

过去一年，国内行业大模型的发展势头迅猛。中科院自动化所和中铁建设集团联合发布面向建筑领域的多模态行业大模型；中国农业大学发布了一系列面向种植、养殖等细分行业的大模型；科大讯飞去年则与央国企及20多个行业的头部企业一起发布行业大模型，覆盖通信、金融、能源、教育、政务、医疗等300多个应用场景。

招投标数据是评估行业大模型趋势和成效的重要参考依据之一。根据智能超参数的统计，2024年可谓是大模型落地元年。2023年，市场公开披露的大模型中标项目及金额分别为92个、7.89亿元。2024年，这两个数字飙升至1520个、64.67亿元，同比增长15.5倍和7.2倍。