白小交 发自 凹非寺
量子位 | 公众号 QbitAI
刚拿下去年年度标王的科大讯飞,这么快就迎来了新年第一弹——
讯飞星火深度推理模型X1。
这款模型不仅在中文全学段数学能力上表现卓越,更在奥赛能力上超越一众知名模型,稳居国内第一宝座。
从官方给出的效果中看到,X1可谓上能打奥赛、考高考,下能辅导小学生做寒假作业。(Doge)
更令人惊喜的是,它的每一步推理过程都清晰可见,附带着详细的思考过程,真正做到“知其然,更知其所以然”。
值得一提的是,X1不仅是当前业内首个完全基于国产算力的推理模型,更是唯一一个在更少算力条件下达到业内一流效果的模型。这一成果背后,体现的是国产团队在算力优化、训练框架设计等核心技术领域的深厚积累与创新能力。
推理能力作为衡量算力效能的关键指标,对硬件架构、算法优化及系统协同提出了极高的要求。
因此,X1的发布,不仅是一次技术突破,还是国产算力集群能力的一次重要验证,标志着国产化技术体系在高效能计算领域的竞争力迈上了新台阶。
目前web端和星火App都已经上线,搜索“深度推理模型X1”智能体即可使用。
援引智能超参数根据公开招标信息统计,过去一年中,科大讯飞以91个中标项目、披露中标金额84780.8万元拿下通用大模型厂商中标排行榜第一名,赢得市场客户的认可。如今又有新大模型加持,也将推动更多行业应用落地。
实测讯飞星火X1
此次发布的讯飞星火X1,并非单独的推理模型,也不同于常规的通用助手产品形态。
而是以其独特的“三个第一”,打出了差异化优势。
- 第一个全国产算力平台上的深度推理模型,代表着国产算力在高效推理上的重大突破;
- 在多项考试中能力指标第一,覆盖小初高、大学、AIME、MATH500等,展现了其卓越的数学推理能力;
- 第一个率先将深度推理类模型应用真实场景中,真正实现了从技术到落地的跨越。
国产算力平台的亮眼表现并非偶然。两年前,讯飞与华为联合发布了“飞星一号”。后者首次亮相便以常态化支持万亿参数大模型训练的能力,当时引发业内不少关注。此后,平台持续适配新模型与新算法,智算集群也实现了多次跃迁。
如今,它已能支撑大模型的深度推理能力,标志着国产算力平台在复杂计算、高效数据处理、高可靠性和可扩展性上实现了全面升维。
其次,讯飞星火X1不仅在标准化测试中表现优异,更在实际应用中展现了其强大的数学推理能力。
在官宣模型之前,X1模型就已经应用在了真实教育教学场景当中。去年1024,讯飞联合中国教育科学研究院发布了基于问题链的高中数学智能教师助手。
同时面向全国百个试点区域、千名教研员和老师打造上万个优秀案例。而星火X1已经部署在上述试点区域,并收获了第一波的真实反馈。
一位来自合肥七中的高中数学老师表示,感觉X1推理过程和逻辑思路更加清晰和严谨了。
他尤其提到了「详细呈现解答过程」这一特点,比如一些中上难度的题目,能够帮助他们快速理清讲解思路。
而且利用这个能力,后续可以直接考虑做成PPT或者动画演示,引导学生理解每个步骤。
可以说,X1不仅拿捏住了技术,更拿捏住了教育一线的实际需求。
既然说到这里,咱们就来一波实测,来实际验证一下X1的这个推理能力。
先来一道来自上世纪经典的奥赛证明题。
如果p和p+2都是大于3的素数,那么6是p+1的因数
看到这题一般第一想法,就是凑数,猜到一个是一个,比如最小的5就符合要求。(Doge)
来看看是星火X1是如何解的。
△图注:解题中
在思考了49秒之后,它采用了排除法,确定判定这个结论是正确的。
首先确定p的形式:p一定是不能被3整除的奇数;
那么考虑两种情况,p=6k+1和p=6k+5,那么第一种也不可能,第二种显然也能被6整除。
排除了所有可能之后,由此判定这一证明题是对的。
看来这道证明确实对它是有点简单了。
那么咱们来看一下求解题,比如这道:
求所有的素数p,使4p2+1和6p2+1也是素数。
乍一看,又是倍数又是平方的,感觉很复杂。那就交给它来思考一下。
X1思考了148秒后,答出了正确答案为5。(o゜▽゜)o☆[BINGO!]
好,回答对了不要紧,关键还得看看它的解题步骤对不对。
首先看到的是,它从最小的素数2开始,分别研究了2、3、5的可能性,结果只有5符合条件。
注意看,这里4不是素数,它直接就规避掉了,这个点其实很容易被忽略掉。
随后它研究了p>5的可能性,从首先排除它是偶数,然后统一成6k+r的通用形式,排除3的情况下探讨6k+1和6k+5的可能,结果发现这两个可能无法直接得出结论。
但是它立马纠错,转念一想!可以用类似的方法检查其他数。
而且还有更简单的方法,那就是大的p总是能被小的素数所整除,那么也就不是素数了。
先举例论证,再扩展更大范围的情况,结果发现行不通,再次转变思路,然后发现了更为简单的方法,排除了更大p的可能性。
这一波行云流水,有理有据,至少好久没碰数学的我是看懂了。
看完了求解和证明题,那咱们试试难一点的,直接拿高考数学来看看。
这是一道来自去年新课标②卷的几何题,注意看这次只是扔一张图给它哦,而且里面不止一道题。
首先看第一个小题:求角A。
它首先将已知方程按照三角函数和角公式改写了一遍,然后利用正弦函数的周期性质以及A的范围,判断出A等于π/6。
回答正确。思路过程也完全正确。
再看第二个小题,求三角形的周长。可以看到它反复用到了三角函数的相关定理,将题干中的等式化繁为简、逐步拆解,最终整合得出答案。
最后答案也是正确的。
可以看到的是,无论是三角函数的应用还是几何定理的推导,X1都展现了其强大的数学推理能力与常识推理能力。
这种能力不仅使其能够应对复杂场景,还能贴近人类思维,甚至弥补人类在思考中的疏漏。
讯飞星火X1的推出,不仅标志着国产算力平台在推理能力上的重大突破,更为教育场景提供了全新的智能化解决方案。
其清晰易懂的解答、强大的常识推理能力以及动态学习与纠错能力,使其在数学考试、赛事中屡获佳绩,并提前俘获了老师的心。
挑战小初数学题
下一步,X1将进一步深入教育场景,直接拿捏学生与家长的需求了。
能够预见到的是,它会让科大讯飞AI学习机的学习辅导能力更强。比如根据孩子的学习吸收能力给出解题逻辑,如果吸收能力比较薄弱,解题步骤就会更为精细,帮助他们系统性地理解问题,逐步培养逻辑思维能力。
一直以来,科大讯飞AI学习机,其实备受学生家长们的认可。
第三方数据显示,2021年至2023年间,连续三年蝉联全国高端学习机销售额第一,而且用户净推荐值NPS持续保持行业第一,可以说广受用户和市场好评。
那么现在不妨提前感受一下,到时候使用起来会是什么样的体验。
来看这道初中数学题,考的是完全平方公式。
已知9x2 -6xy+k是完全平方式,则k的值是。
像「我们需要认识到」、「让我们从XX开始」、「可以将XX这两个进行比较」,它的语气都是那种循循善诱,很有耐心的感觉~
不仅每个步骤清晰,就是公式展开,像(3x-y)2的演算过程也一一呈现,最终得到了正确答案。
即便像这种简单的几何题,也是解题逻辑都挨个解开:
步骤1:确定抛物线的开口方向;
步骤2:找到抛物线的顶点;
步骤3:确定与y轴的交点
步骤4:分析选项
讯飞星火X1像是一个更为耐心和专业的“AI老师”, 跟随它的思路过程,孩子也能思考一遍。
不错不错,现在寒假也到了。
X1部署应该也紧赶慢赶地在日程上了,这样家长辅导起来也就轻松多了。
没想到,o1类模型第一波大规模应用,可能是先由孩子们用上。(Doge)