智东西
作者 陈骏达
编辑 漠影
推理模型潮真的来了!
自OpenAI的o1深度推理模型发布以来,国内外已有不少企业陆续发布“类o1”模型,仅在国内便有Kimi-k1、GLM-Zero、DeepSeek-r1等数款模型。
去年年底,OpenAI在罕见的12天连续发布中带来了o3模型,推理能力大幅提升,给担忧大模型发展放缓的业界人士打了一剂强心针,并将这一赛道的热度推向新的高点。
英伟达CEO黄仁勋也在上周的CES主旨演讲中谈到,在传统意义的大算力、大数据、大模型Scale路径之外,业界还可依靠后训练(如强化训练)和模型的测试时计算(即“推理”)来提升模型的性能。
今天上午,作为“AI国家队”、同时也是“大模型标王”的科大讯飞也发布了讯飞星火深度推理模型X1。
依托讯飞在行业、企业落地方面的积累,星火X1成为国内唯一采用全国产算力平台、率先落地到真实应用场景的深度推理模型,并在教育、医疗等领域展现出优势。
星火X1发布后,智东西在第一时间进行了上手实测,星火X1能胜任全学段的大部分数学问题,模型推理速度也比较理想。在全国产算力的基础之上,这一效果更显得难能可贵。下面就让我们来看看这款模型的具体表现吧。
一、难倒一众大模型的数学题,星火X1轻松搞定
数学,一直是许多不具备深度推理、思考能力的大模型绕不过去的一道坎,对星火X1的测试也从这里开始。
在开始测试之前,我们可以先看看其它模型在数学问题上的表现。
最简单的比大小问题,其实已经能难倒部分参数规模较小的模型。
▲左侧为Anthropic Claude 3 Haiku,右侧为微软Phi-4
在高中竞赛题面前,即便是最新的旗舰模型也很难保证高正确率。
▲国内两款旗舰模型回答高中竞赛数学题,回答均错误
参数在几十亿、几百亿不等的模型在困难数学问题上落败其实并不让人感到意外,但为何参数达到上千亿的旗舰模型也无法破解此类难题呢?
其实,模型能力并非影响大模型复杂问题求解效果的唯一因素,是否具备规划、反思、迭代等深度推理能力才是关键。
不具备上述能力的模型在回答问题时,更像是“单次生成”的,模型更多地是凭借自己在预训练阶段培养出的“直觉”、“印象”在回答问题,也不会对前序生成的内容进行判断、验证或是修改。这种方式的优点在于速度快、效率高,但其实与人类在解决复杂问题时的思考模式有很大差异。
而具备深度推理能力的模型则会通过思维链(Chain-of-Thought)等方式将复杂问题分步拆解简化,在生成回答的过程中进行反思、验证。这类模型在训练过程中,还会使用上述推理时产生的数据进行强化训练。
深度推理能力让星火X1能以较高的正确率,解答困难数学问题。在面对这道高考数学多选题压轴题时,星火X1顺利完成了从理解题目到解题再到验证的全流程,答案完全正确。
星火X1在画面右侧呈现了其思考过程,在对话框里撰写主要的解题过程,这种呈现方式对用户的使用体验来说也更为友好。在阅读思考过程中,可以发现星火X1的反思、迭代机制确实发挥了作用:它自己纠正了计算过程中的一个错误。
国内某款同类推理模型虽然用时稍短,但最终的结果有误。虽然它进行了验算,但并未发现其中的问题。
科大讯飞作为一家人工智能企业,布局智慧教育领域已有20余年,目前常态化使用讯飞智慧教育产品的学校数量已超5万所。
具体到数学上,2023年,当大部分模型还处于重理轻文的状态时,讯飞星火就已经凭借比平均得分超出20%的成绩,在《MIT科技评论(中国版)》进行的一场测试中成为数学专项的绝对领先者。
在2024年的科大讯飞1024开发者节上,全新升级的星火4.0 Turbo的数学能力超越GPT-4o,效率相对提升50%。
去年,科大讯飞联合中国教育科学研究院发布了基于“问题链”的高中数学智能教师助手。今天发布的X1或将给讯飞旗下的数学类产品带来更强大的能力。
讯飞介绍,星火X1已参加了从小高初数学(含竞赛)到AIME邀请赛等覆盖全学段的多项考试,得分水平处于业界第一梯队,其中多项指标国内第一。
二、大模型年度标王背后:深度理解行业是关键
尽管AI模型在推理、思考等能力上取得了显著进展,但这仅仅是基础。AI的真正价值不仅在于其技术本身有多先进,还在于能否深度理解行业场景并解决实际问题。
当AI进入行业深水区,通用大模型在领域知识上的相对匮乏、对行业需求的理解不足,以及高昂的使用成本,使得大模型的能力难以直接转化为实际生产力。正因如此,通用基础模型与行业特定需求相结合的行业大模型解决方案应运而生。
过去一年,国内行业大模型的发展势头迅猛。中科院自动化所和中铁建设集团联合发布面向建筑领域的多模态行业大模型;中国农业大学发布了一系列面向种植、养殖等细分行业的大模型;科大讯飞去年则与央国企及20多个行业的头部企业一起发布行业大模型,覆盖通信、金融、能源、教育、政务、医疗等300多个应用场景。
招投标数据是评估行业大模型趋势和成效的重要参考依据之一。根据智能超参数的统计,2024年可谓是大模型落地元年。2023年,市场公开披露的大模型中标项目及金额分别为92个、7.89亿元。2024年,这两个数字飙升至1520个、64.67亿元,同比增长15.5倍和7.2倍。
▲2024年1-12月中国大模型中标项目监测报告(图源:智能超参数)
过去一年,科大讯飞是大模型招投标领域表现最为突出的企业,中标项目达91个,中标金额高达约8.48亿元,两项指标均位居行业第一,且远超其他厂商,成为行业大模型的领跑者和年度“标王”。
▲2024年Top6通用大模型厂商中标排行榜(图源:智能超参数)
与部分大模型企业先从C端突破,再到B端寻求商业化的路径不同,讯飞在2022年底——也就是生成式AI浪潮兴起之际——便瞄准行业和企业市场,启动了“1+N”战略。
在这一战略中,“1”代表通用认知智能大模型算法研发及高效训练底座平台,而“N”则代表应用于教育、医疗、办公等多个领域的专用大模型版本。
这一布局使讯飞能够快速将大模型技术落地到具体行业场景中,推动智能化转型。此番发布的星火X1也成为业内率先成功落地具体场景的深度推理模型。
教育方面,这款深度推理模型已经走进了北京、合肥等地的学校,辅助一线老师的教学工作。来自合肥七中的米老师分享,对于难度中上的题目,星火X1能辅助老师快速理清讲解思路;对学生来说,星火X1的详细解答可以引导学生理解解题步骤,进而系统地理解和掌握知识点。
医疗方面,基于知识反思和思维链技术,结合医疗循证推理技术,星火X1具备了医疗复杂推理能力,在专科辅助诊断和复杂病例内涵质控上的准确率目前都达到了90%。2025年上半年,基于星火X1的讯飞医疗大模型升级版将会正式发布。
三、芯片层层封锁之下,世界需要第二种选择
我们已经看到,国内大模型在行业应用中的落地取得了显著进展,但其背后仍存在隐忧。无论是模型的训练还是推理,都需要高性能的算力平台作为基础。过去很长一段时间里,国内企业在高端算力供应上长期依赖进口,尤其是英伟达等国际巨头的GPU产品。
当前,全球算力格局正发生深刻变化。随着近期美国《人工智能扩散出口管制框架》的出台,高端算力的获取渠道进一步收窄,国内许多AI企业的研发和商业化落地都面临巨大挑战。美国对高端算力的出口限制,不仅暴露了国内企业在算力供应链上的脆弱性,更凸显了国产算力自主化的紧迫性。
国产算力的崛起,已不仅仅是一个技术问题,而是关乎中国AI产业能否在全球竞争中掌握主动权、实现可持续发展的战略命题。我们需要一个靠得住的“第二种选择”。
今天讯飞发布的星火X1,是国内首个完全依托全国产算力平台的深度推理大模型,其背后的“飞星一号”是国内首个全国产万卡算力集群,具备常态化支持万亿参数大模型训练的能力。
这一由科大讯飞与华为联合研发的算力平台,实现了软硬件的全栈国产化,标志着国产算力在性能上迈出了重要一步。
针对国产算力生态方面的短板,讯飞与华为携手推进国产化算子的开发与优化。目前,双方已识别并联合研发了超过100个大模型专用训练/推理算子,其中50多个算子已完成深度优化。
此外,针对行业普遍面临的训练中断问题,讯飞构建了自动化故障处理体系,实现了80多种常见故障在10分钟内自愈的能力,并支持4000+卡任务连续运行超过20天,显著提升了算力平台的稳定性和可靠性。
2024年底,科大讯飞还联合华为等企业推出新一代国产超大规模智算平台“飞星二号”。该平台采用灵活的系统架构,能够快速适配新模型与新算法,并为科研、教育、医疗等行业提供高效、精准的智能服务,进一步推动国产算力生态的完善与应用落地。
结语:探索深度推理模型的中国道路
推理模型作为下一阶段大模型能力提升的重要突破口之一,正成为大模型企业间竞争的核心焦点,同时也是国家间AI实力比拼的关键领域。推理能力解锁了模型在复杂问题上的解决能力,也推动AI技术在实际场景中的高效落地。
科大讯飞凭借过往在应用领域的积累和全国产算力平台支撑,已在数学、医学等传统优势领域发挥出推理模型的优势,有望逐渐探索出一条深度推理模型的中国道路。