一文回顾OpenAI系列发布会：从工具到AGI，OpenAI的12天进化论

OpenAI 年末的12天连续Devday更新终于落幕，每天蹲守观看发布会都像在开巧克力盲盒，不知道下一个是什么口味。

在前11天的发布会中，大部分属实非常寡淡，只有三个产品还有些精彩的“滋味”。

总结起来，能称得上重磅的更新包括：o1正式版、Sora、Canvas，它们主要集中在前4天发布。

其中，o1正式版确实提升很大，Sora则是增加了不少对AI生成视频进行更改的产品模式，Canvas可以被视为OpenAI第一次挑战AI工作台的产品尝试。

其次，相对还有些看点的是：和苹果的深度合作，视频通话功能，以及o1-mini的强化微调。

o1-mini的强化微调在专业领域潜力很大，微调简单提升明显。视频通话功能则是那个让人惊艳的“HER”正式上线。和苹果的深度合作对OpenAI来讲也是件大事，更站稳了在AI行业的一哥地位。

另外一些小的产品更新则是让人觉得——“这也值得开发布会？”

这些产品包括“Projects”项目功能、o1 图像输入和4o高级语音API正式开放、ChatGPT Search 升级和给GPT打电话的功能。它们都是相对比较小，也都和竞争对手没什么差异的更新。

到了最后一天，OpenAI终于甩出一个王炸：GPT-o3。一举打破AI发展陷入瓶颈的怀疑，各项性能直奔AGI而去。

我们根据发布产品的重要性做了一个表格，梳理这过山车似的十二天发布日。

下面，我们来稍微详细地讲述一下这些更新的核心点。

重要产品更新

o1完全版（Day1）

从能力上看，o1确实比Preview版本有了比较大的进步。它在国际数学奥林匹克预选赛题目（AIME 2024）、编程能力测试（CodeForces）方面都比o1- preview提升了50%。在处理复杂问题时的重大错误率降低了34%。

它还能根据题目的难易程度调节处理时间，这使得用户等待时间下降超过50%。

更重要的是o1也能支持多模态识别了。这让它的实用性暴增。医生可以用它分析医学影像，工程师能让它帮忙看图纸，设计师还能让它提供创意建议。

但它的价格也相当贵，只有200美金的ChatGPT Pro版订阅用户才能享受无限使用，其他普通20美元订阅用户仅能享受每日20次使用权限。

作为第一天登场的产品，o1确实能让人眼前一亮。

Sora（Day3）

等了10个月后，Sora终于姗姗来迟。

但这不是个模型版本升级，而更像是一个产品打磨。正式版的Sora能生成最长20秒，最高1080p的视频。生成效果和2月份刚放出的差异不大。

但产品上OpenAI确实下了点心思，故事板是此次发布中最具创新性的功能，也是Sora最具野心的尝试。它为用户提供了类似专业视频编辑软件的时间轴界面。用户可以在时间轴上添加多个场景卡片。用户可以将多个提示词串联起来，系统会自动处理场景之间的过渡效果。

除此之外，OpenAI还提供了Remix、Blend和Loop三个专业工具。换掉视频中的元素，或者混合两个视频，还能自动补全做无限循环视频。

产品是挺不错的，但没升级过的模型不太给力。在发布后的评测中，Sora频频翻车，运动、交互和物理经常处理得一塌糊涂。还会有凭空出现的人和鬼影。

OpenAI 给的可用量也很小气，20美元的Plus用户每月可用50次。只有支付每月200美元的Pro用户则能享受无限次数的"慢速"生成权限。

Sora总算来了，但是挺让人失望的。

Canvas（Day4）

一句话形容，Canvas就是OpenAI 打造的AI版Google Docs。

因为Canvas已经进化成了集智能写作、代码协作和AI智能体为一体的一套完整工作台。它显示出了OpenAI超越Chatbot的产品野心。

作为写作助手，可以提供编辑意见。

编程功能上，Canvas则通过内置的WebAssembly Python模拟器，创造了一个几乎无延迟的编程环境。它还展现出了理解代码意图的能力。

与近期更新的Cursor和Devin一样，它上线了定制化AI智能体的能力。它可以完成一系列操作，帮你给朋友们发圣诞信。

Canvas的这三个维度并不是孤立运作的。在实际使用中，它们往往会相互配合，这种无缝的集成使Canvas成了一个多功能AI驱动的创作工作室原型。

但单纯从前端展示的角度看，它不如Claude 的 Artifacts。编程的便利性也不如Cursor。因此融合才是它的亮点吧。

一般产品更新

o1-mini强化微调（Day2）

这一产品如果不是实用性较窄，也算是一个重磅发布。

它改变了过去微调只是通过增加专业数据的逻辑，而是对具有推理能力的模型进行强化学习方向的微调。引导模型在面对复杂问题时有更深刻的思考能力。

现在，仅需“几十个例子”甚至12个例子，就能够让模型有效学会特定领域的推理。根据OpenAI的研究数据，经过强化微调的o1mini模型，其测试通过率比传统的o1模型高出24%，相比未经过强化微调的o1mini则提升了整整82%。

可惜只能微调o1-mini，适用上也都是那些复杂领域任务，比如医疗、法律或金融和保险。泛用性较差。

高级视频语音模式（Day6）

这又是个老饼上桌。5月13日，在GPT-4o的演示中，OpenAI的工作人员就能和4o视频通话，可以看到我们实时的手机屏幕内容，或者根据相机里的实时画面和我们聊天或解答问题。

这次就是真正实装了，没有什么升级。但这个功能本身还是非常重要的。

不过因为这个饼烙的时间有点长，前两天微软推出的Vision和谷歌还在烙的Astra也已经跟上了。OpenAI的领先正在一点点被蚕食。

与苹果的合作（Day5、Day11）

ChatGPT和Apple Intelligence的，更像是个官宣深度结果。苹果搞不定的只能让贤OpenAI了。

整合主要包含三个方面：首先是与Siri的协同。当Siri判断某个任务可能需要ChatGPT的协助时，它可以将任务移交给ChatGPT处理；

其次是写作工具的增强，用户现在可以使用ChatGPT从头开始撰写文档，还能进行文档细化和总结；

第三是iPhone 16的相机控制功能，它能够通过视觉智能让用户更深入地了解拍摄对象。

后面第十一天的Mac整合，则是给了GPT更多Mac工具的调用权限。

我唯一不理解的就是这俩为什么不能同一天宣布，还非分两天？

能力补齐和小功能更新（Day 7，8，9，10）

剩下的几个更新最多只能算是凑数。简单一句话就能说清。

“Projects”项目功能：它允许用户创建特定项目，上传相关文件，设置自定义指令，并将所有与该项目相关的对话集中在一个地方。基本和Claude的没差别。

ChatGPT搜索升级：能在对话中搜索，支持多模态输出。Perplexity的Pro模式早支持了。

4o热点：美国用户能打电话用4o了！挺尊老爱老的，我看也算是给他们过重阳了。

o1 图像输入和4o高级语音API正式开放：我建议这个放在o1发布当天最后一句话说完。

这几天真的是有点进入拖时间的循环了。

最终王炸

GPT-o3（Day 12）

如果不是最后一天GPT-o3压轴登场，我真的觉得OpenAI纯粹是为了搅浑水才连开12天发布会。

因为在这期间，Google发布了Gemini 2 Flash，超快超强；Astra，看起来是真的Agent模样；Voe2，碾压Sora ；Gemini 2 Flash Thinking，o1人家也有了。就发了三篇公告几个视频，把OpenAI前11天的发布全都掀了桌。

但在Day 12，OpenAI还是找回了雄风。用o3向业界证明：Scaling Law未死，OpenAI为王。

o3 是 o1的下一个版本。在9月份o1发布后仅3个月后，这一新版本在编码、数学以及 ARC-AGI 基准测试等多个基准上就大幅超过了 OpenAI 此前的 o1 模型。

看几个数据对比：

Codeforces 评分：2727——相当于全球人类程序员编码竞赛中，排名第 175 位。超过99%的人类程序员。

博士水平的科学问题（GPQA）：87.7%——博士生一般得分70%

最难的前沿数学测试：25.2%——其他模型没有超过2%，数学天才陶哲轩说该测试“可能难住AI好几年”

证明是否达到AGI的题目ARC-AGI：87.5%——o1的得分25%

最值得注意的就是这最后一项测试ARC-AGI，它展示的是模型新型任务适应能力。作为对比，之前ARC-AGI-1从2020年GPT-3的0%仅提升到2024年GPT-4o的5%。这意味着模型不是死记硬背，而是真正在解决问题的能力。

虽然ARC-AGI测试中表现出色，但这并不意味着o3已达到了AGI水平，因为它仍会在一些非常简单的任务中失败，和人类智能有根本性的差别。

但不论如何，这都证明OpenAI选择强化推理这个范式转变成功了。人工智能的发展没有任何放缓的迹象。Scaling Law依然有效。

那些对AI停滞不前的担忧，被OpenAI年末的圣诞礼物一扫而空。

虽然o3进行一次低算力计算的成本高达20美元，高算力甚至可能高达3000美元，要使用在现阶段几乎是不可能的。但算力会降低，Scaling Law会延续。

3个月，两个顶尖模型，OpenAI在这12天的最后一天又让我们感受到了2022年末到2023年初从ChatGPT到GPT4那段时间AI扑面而来的速度。

也许正如之前参与开发了o1的 OpenAI科学家Noam Brown在采访中说的一样，“2024年，OpenAI是在实验，而2025年就是全速前进的一年。”

OpenAI 12天的发布会，过程波折，完美收工。为2025年的AI埋下了希望。

本文作者：郝博阳，来源：腾讯科技，原文标题：《一文回顾OpenAI系列发布会：从工具到AGI，OpenAI的12天进化论》

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦