机器之心原创

作者:张倩、杜伟

2024 年 12 月中旬,前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 大会上发表了一个惊人的观点:Scaling law 正在放缓,预训练时代即将结束,未来的研究方向将更加注重推理能力的提升。



如果 Ilya 的预测为真,那我们现在其实正在经历一场大模型发展路线的范式转移。

在国内,不少从业者也观察到了类似趋势。昆仑万维董事长兼 CEO 方汉曾提到,「从目前的情况来看,训练的 Scaling Law 其实还是有所放缓的,但是基于慢思考的、推理的 Scaling Law 又开始涌现。」

与此同时,国内外很多公司都在加码多模态。因为随着大模型应用范围的扩大,单一模态的局限性正变得愈发明显,只有实现多模态融合,用户才能获得更丰富的体验。

不过,在国内,能做到两条线齐头并进的公司还非常少。

昆仑万维就是其中之一。2024 年 11 月,机器之心报道了这家公司的两个大模型 —— 天工大模型 4.0 o1(Skywork o1)和天工大模型 4.0 4o(Skywork 4o)。

但令人意外的是,2025 年第一周刚过完,这两个模型就一起上线了!而且是全量上线,免费用。

打开天工 web 端网站,由 Skywork o1 加持的各项功能就会出现在眼前。o1 的提升主要体现在推理能力方面,在数学、代码、中文逻辑推理等问题中表现突出。



可以看到,在拿到一个提示后,Skywork o1 不会立马给出答案,而是一步一步去推导正确答案。与之前的「快思考」模型相比,这种「慢思考」的模式更适合去解决现实世界的复杂问题。

天工 web 端地址:https://www.tiangong.cn/ (点开立即体验 Skywork o1)

Skywork 4o 则有着拟人的语音对话能力,而且延迟低、可打断、音色逼真、情感丰富…… 利用这一模型,天工技术团队打造了实时语音对话 AI 助手 Skyo,通过天工 APP 的 Skyo 入口对外开放。



视频链接:https://mp.weixin.qq.com/s/kfqBXQ6HsREjNcoGPTh18Q?token=593940781&lang=zh_CN

Skywork o1 表现如何?

当大模型学会复杂推理,一些原本很难解决的数学、代码等问题往往会迎刃而解。Skywork o1 的表现就证明了这一点。

在数学相关的基准测试中,Skywork o1 Preview 在包含数十道数学竞赛级别难度的测试问题的 AMC-23 中达到了 SOTA,在 AIME-24 和由国际数学奥林匹克等高难度数学竞赛题组成的 OlympiadBench 也取得了不错的成绩,仅次于 OpenAI 的 o1-mini。



在代码相关的基准测试中,Skywork o1 的表现也令人印象深刻。例如,在 HumanEval 和 MBPP 测试中,Skywork o1 preview 分别取得了 94.5 和 93.4 的高分,前者仅次于 o1-mini,后者比 o1-mini 高出 4.4 分。



此外,Skywork o1 团队还专门创建了一个私有评估集,用于更好地评估类 o1 模型的思考、规划以及反思等能力。这个评估集包含 20 种问题类型,每种问题类型包含 30 条不同难度或约束条件的问题样本。下表列举了在该评估集上 skywork o1 对比主流大模型的性能差异。结果显示,Skywork o1 的能力显著优于常规通用大模型,表现仅次于 o1-mini。



为了验证模型的真实能力,在 Skywork o1 全量开放的第一天,机器之心就进行了测试,全方位考察了该模型覆盖思考、反思和验证过程的推理能力。

hold 多类型推理

首先来看 Skywork o1 能不能应对「海龟汤题」,这是一类没有标准答案的开放性问题,通过设置一个故事情节来推导背后可能的深层原因, 用以考察大模型对故事内容、隐含信息等的筛选、理解、分析、关联性推理能力。

从结果来看,Skywork o1 初步具备了解读这类问题所需的能力,针对故事场景,通过发散性思维与联想给出了它自己以及我们也认为合理的解释。



再考它一道益智类「过河」问题,往往涉及多个人物、动物或物品,在遵守一定规则和限制条件的情况下,最终完成完全渡河的目标。此类问题主要考察大模型的逻辑推理、问题拆解和规划能力,Skywork o1 很擅长此道。



经典的「真话者与说谎者」问题可以用来考察大模型的问题解构与重构、逆向思维能力,Skywork o1 游刃有余,直接抓住了破解的关键点。



公务员行测中的类比推理题对 Skywork o1 来说是手拿把掐,此类问题主要考察大模型对集合概念、内在逻辑关系、跨学科常识知识的综合分析、归纳与判断能力。如下准确 get 到了抽象概念与学术领域相关的类比推理。



2025 管理类联考中的一道逻辑推理题,考察了大模型的演绎推理、信息整合与分析、空间排列理解等多方面的能力。Skywork o1 也能正常应对。



数学能力跃升:考研题不在话下

这次,我们在数学能力测试上给 Skywork o1 上了难度,让它做两道2025 考研数学一的试题

首先是一道填空题,考察了概率知识。经过一番缜密的思考与推理,Skywork o1 答对了。



然后是一道单选题,主要考察线性代数中矩阵秩(Rank)的相关概念以及在矩阵乘法中的应用,要求 Skywork o1 分析和验证不同秩关系,并利用已知条件进行推理和证明。从解题过程来看,它具备了比较扎实的线性代数基础和严密的数学推理能力。



不俗的代码能力

目前,Skywork o1 可以解决不同难度和技术领域的代码问题,比如「反转字符串里的单词」。



更复杂的创建智能体



一番体验下来,我们的最大感受是:从思考全链路、答案详实度与准确度、实际体验等多个维度来看,Skywork o1 称得上全能型高质量选手了。

擅长推理的大模型如何练就?

Skywork o1 在逻辑推理任务上性能的大幅提升主要得益于天工自研的三阶段训练方案

第一阶段是推理反思能力的训练,数据是其中的侧重点。其实,在 OpenAI o1 推理模型发布之前,Transformer 作者 Aidan Gomaz 等人就提到,AI 模型不擅长推理并不是因为推理本身很难,而是互联网上没有太多展示推理过程的训练数据,Cohere、OpenAI 和 Anthropic 等公司一直在收集这类数据。在打造 Skywork o1 的过程中,研究团队也在数据上下了很大功夫。通过自研的多智能体体系,他们构造了高质量的分步思考、反思和验证数据,并通过多样的高质量长思考数据对基座模型进行继续预训练和监督微调。

为了提高这一阶段模型的训练效率和逻辑推理能力,他们还在版本迭代中大规模使用了自蒸馏和拒绝采样。

第二阶段是提高推理能力的强化学习。Skywork o1 的工作方式是分步推理,确保每个步骤的正确性对于最终结果的正确性非常重要。为此,研究团队研发了适配分步推理强化的 Skywork o1 Process Reward Model(PRM),而且在短期内实现了新版本迭代。

与主要侧重于数学和代码的上一个版本相比,新版 PRM 增加了对更多常见推理领域的支持,例如常识推理、逻辑陷阱、伦理决策等。此外,在模块化评估方面,Skywork-PRM 还侧重优化了对 o1 风格思维链的试错与反思验证能力的支持,细粒度地为强化学习与搜索提供了更准确的奖励信号。

实验证明,Skywork-PRM 可有效地捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响,结合自研分步推理强化算法进一步加强模型推理和思考能力。

第三阶段是推理规划。Skywork o1 团队基于天工自研的 Q * 线上推理算法,配合模型在线思考,寻找最佳推理路径。



Skywork o1 团队自研的 Q * 算法,这也是全球首次将 Q * 算法实现和公开。图源:论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》。论文链接:https://arxiv.org/pdf/2406.14283

前面提到,通过使用高质量和多样化的长思考数据,研究团队对基座模型进行了预训练和监督微调,从而使其具备了结构化输出回答的能力。这种能力体现在 Skywork o1 能够对推理过程进行统筹规划,并实现模型回答的自动化分层输出。在这一过程中,Skywork o1 还会穿插进行反思和验证,以确保推理的准确性。

考虑到这类模型的回答通常比传统模型更长,如果使用以句子为单位的规划方法,会显得效率低下,并且容易导致过度思考。因此,Skywork o1 采用了一种新的规划方式,即以模块作为规划的步骤单位。这种模块化的树形结构推理不仅提高了规划效率,还使得 Skywork o1 的 PRM 能够更完整地观察到模块化的回答,从而做出更准确的判断,并指导 LLM 进行更有效的推理。

为了避免模型在回答简单问题时过度思考。Skywork o1 还采用了自适应分配搜索资源的方式,在搜索开始之前对用户 query 进行难度预估,自适应地控制搜索树的宽度和深度,在简单的问题上做到快速给出回答的效果,在复杂题目上做到反复多轮验证从而提高回答的准确率。

Skywork 4o 加持的 Skyo 和真人有多像?

自从 OpenAI 发布 GPT-4o 以来,行业和用户对语音大模型的需求已经发生了变化:他们不单单追求自然、实时和准确的回复,还希望 AI 能够尽可能读懂对话中的情绪并给予相应的情感反馈,这就在情绪感知、情感共鸣方面提出了更高的要求。

实现以上这些在技术上面临着一些挑战,比如在数据层面,高质量、多样性和代表性的数据获取往往成本高昂,采集数据后还需要专业人员对包含各种噪声、口音、语速的语音数据进行标注。同时,更强的情绪感知和回应需要准确识别用户语音的音调、节奏、音量、语气等细微且复杂的变化,并在回答时根据情境调整语气和语调。总之,需要克服的问题不少。

Skyo 利用超过百万小时的语音数据进行了大模型预训练,学习到了真实世界各种场景、不同风格的说话表达方式,在回复时的语速、语调、情感方面不再干巴巴,变得更加自然、更加多变、更有人情味。

也得益于端到端建模(而非传统的 ASR + NLU + TTS 三阶段的级联方案),Skyo 能够像人类一样,能听懂用户的语音,并提供了高质量交互能力(包括极低延迟、实时打断)和自然、流畅的互动体验,用户也能快速获得智能的语音回应。



上图为 Skyo 所采用的语音对话框架,专为全双工端到端语音对话设计,方便用户通过自然的对话方式与智能系统交流。整个框架可以分为以下几步:

  1. 语音输入(Speech Query)与语音编码(Speech Encoder):用户通过语音表达自己的问题或请求,这些语音被系统接收,作为对话的起点。系统利用语音编码器将接收到的语音信号转换为语义表示。
  2. 适配转换(Adapter):语音的语义表示通过适配模块的模态对齐被调整为大语言模型(LLM)能够理解的格式,为语音与文本语义的无缝对接提供支持。
  3. 大语言模型(LLM):经过适配的语音信息被输入到核心智能模型(LLM),模型通过多模态的处理能力理解语音意图,并生成相应的解决方案或回答。
  4. 语音输出(Speech Token):系统支持直接输出语音 token(Speech Token),通过扩散模型将这些 token 还原为真实语音,实现从语音输入到语音输出的端到端交互。





视频链接:https://mp.weixin.qq.com/s/kfqBXQ6HsREjNcoGPTh18Q?token=593940781&lang=zh_CN


从体验效果中我们能感觉到,Skyo基本能做到「像和真人一样说话聊天」的效果,两个影响体验的关键因素——响应速度和回复的自然流畅程度——都优化得非常好。由此可见,端到端建模的方式确实存在明显优势,它让 Skyo 不再仅仅是一个语音转录后进行理解问答的工具,而是成为了声音领域的智能专家。

2025 年,大模型竞争进入 Next Level

这段时间,关于 2025 年 AI 趋势的分析多了起来,大家不约而同地提到了一些关键词,比如推理时间计算、AI 智能体、空间智能、AI 应用…… 显然,大模型的竞争即将进入 Next Level。



IBM 发布的 2025 年 AI 趋势分析。

当然,并不是所有的企业都可以继续走下去。除了算力这种拦路虎,技术路线的环环相扣也是一个重要因素。比如要想做好 AI 智能体,模型的推理能力要足够强;要想做好空间智能和 AI 应用,多模态能力至关重要。毕竟,现实生活中的很多需求都是多模态而不是纯文字的,模型对真实物理世界的感知也要建立在强大的多模态理解能力之上。

在众多做大模型的国内公司中,昆仑万维是模型能力较为全面的一家。这些能力彼此增益,帮助昆仑万维实现了模型能力的快速迭代,也让他们在潜在应用的探索中拥有更高的自由度。

截至目前,昆仑万维已经在应用领域取得了不少成果,比如推出了最懂金融、学术的天工 AI 搜索,AI 音乐创作平台 Mureka,AI 短剧平台 SkyReels,AI 社交产品 Linky 等。对于这样的成绩,昆仑万维创始人周亚辉在朋友圈发文表示,「昆仑万维 24 年的 AI 战略我自己也打满分,原因是足够差异化,找到了自己小而大美的空间。

更重要的是,这些已经取得的技术、产品成果让昆仑万维在实现其长期目标 —— 通用人工智能(AGI)的道路上,显得尤为坚定和有信心。

2024 年初,昆仑万维发布了新使命 ——实现通用人工智能,让每个人更好地塑造和表达自我

周亚辉认为,AGI 时代也可以叫做机器人时代。AGI 时代的标志是机器人开始真正进入人类社会,进入到人们工作和生活的方方面面的场景中。

不过,要想进入这个时代,需要解决空间智能大模型的构建、运动控制技术的改进、机器人的保值增值能源能耗这三大问题。目前,对推理大模型和多模态大模型的研究正逐步为这些技术难题提供解决方案。这些研究可能是通往 AGI 时代的必经之路。

未来一年,我们期待昆仑万维在 AI 领域的发展能够带给大家更多的惊喜。

ad1 webp
ad2 webp
ad1 webp
ad2 webp