OpenAI发布GPT-4.1系列模型，超越前辈4o，但未超越竞争对手

GPT-4.1 来了。

北京时间4 月 15 号凌晨，OpenAI 直播发布了名为 GPT-4.1 的多模态系列模型。

它有三个版本：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。其中 mini 和 nano 的效率更高、速度更快、成本更低，但牺牲了准确性。

图 | GPT-4.1 与 GPT-4o 系列对比（来源：OpenAI）

OpenAI 表示，“它们编码和指令遵循方面取得了重大进展。完整的GPT-4.1 模型在几乎所有维度上均优于 GPT-4o 系列模型。”

仅从基准测试成绩来看，GPT-4.1 的纸面性能虽然比自家前辈有所提升，但如果跟谷歌、Anthropic 等竞争对手的旗舰模型相比，还是有一定的差距。

看来想要完全超越竞争对手，OpenAI 只能尽快拿出 o3 完全体了。

（来源：evalarena.ai）

值得注意的是，GPT-4.1 系列模型目前只能通过 OpenAI 的 API 获取，无法在 ChatGPT 上使用。

与此同时OpenAI 还宣布，将很快停止通过 API 提供其有史以来最大的 AI 模型 GPT-4.5。该模型是今年 2 月刚刚发布的，其运行成本十分昂贵，API 定价也高达每百万输入 75 美元，每百万输出 150 美元。

今年7 月 14 日之后，API 开发者必须将 GPT-4.5 服务转移到 OpenAI 的其他模型，首选替代方案是 GPT-4.1。这暂时不会影响通过 ChatGPT 使用 GPT-4.5。

GPT-4.1 系列模型的上下文窗口提高到了 100 万 token（包含文本、图像或视频的组合），这意味着它们可以一次性输入大约 75 万个单词。此前的 GPT-4o 最多支持 12.8 万 token。

但OpenAI 也承认，GPT-4.1 处理的输入 token 越多，可靠性就越低，更容易出错。

在该公司自己的测试OpenAI-MRCR 中，随着 token 的数量从 8000 增长到 100 万，模型的准确率从 84% 左右下降到了不足 50%。该公司表示，GPT-4.1 也比 GPT-4o 更“直接”，有时需要更具体、更明确的提示。

图 | GPT-4.1 系列模型定价（来源：OpenAI）

定价方面，GPT-4.1 每百万输入 token 成本为 2 美元，每百万输出 token 成本为 8 美元。GPT-4.1 mini 每百万输入 token 成本为 0.4 美元，每百万输出 token 成本为 1.6 美元；GPT-4.1 nano 每百万输入 token 成本为 0.1 美元，每百万输出 token 成本为 0.4 美元。

综合来看，GPT-4.1 的成本比 GPT-4o 低 26%。同时，OpenAI 还将新模型的即时缓存折扣输入提高到了 75%（之前为 50%）。

性能方面，GPT-4.1 可以一次性生成比 GPT-4o 更多的 token（最多 32768 个 token），在最受程序员关心的 SWE-bench Verified 上的得分在 52% 到 54.6% 之间。这个成绩低于谷歌 Gemini 2.5 Pro 的 63.8% 和 Anthropic Claude 3.7 Sonnet 的 62.3%。

对于需要编辑大型文件的API 开发者来说，GPT-4.1 在跨多种格式的代码差异分析方面更加可靠。在 Aider 的多语言差异基准测试中，GPT-4.1 的得分是 GPT-4o 的两倍多，甚至比 GPT-4.5 还高出 8%。

“我们专门训练了GPT-4.1，使其能够更可靠地遵循差异格式，这使得开发人员只需让模型输出更改的行，而无需重写整个文件，从而节省成本和延迟。”OpenAI 写道。

图 | 多模态性能对比（来源：OpenAI）

这一点在指令遵循上也有所体现。

OpenAI 在博客中介绍称，GPT-4.1 能更可靠地遵循指令，并且“已经在各种指令遵循评估中测量到了显著的改进”。

OpenAI 开发了一个内部教学跟踪评估系统，以跟踪模型在多个维度和几个关键教学跟踪类别中的表现，包括格式遵循、避免负面指示、有序遵循指令、遵守内容要求、排序和过度自信。

这些类别是根据开发人员的反馈得出的，这些反馈是关于哪些指令遵循方面对他们来说最相关且最重要。在每个类别中，OpenAI 将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。

图 | OpenAI 内部指令遵循测试结果（来源：OpenAI）

多轮指令遵循对许多开发者来说至关重要。对于模型而言，在对话中保持连贯性并跟踪用户之前输入的内容至关重要。

“我们已经训练了GPT-4.1，使其能够更好地从对话中的过往消息中识别信息，从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有效指标，GPT-4.1 的表现比 GPT-4o 提高了 10.5%。”OpenAI 表示。

GPT-4.1 在前端编码方面也比 GPT-4o 有了显著提升，能够创建功能更强大、更美观的 Web 应用。在 OpenAI 的评估中，相比 GPT-4o，测试人员更喜欢 GPT-4.1 创建的网站。

在另一项评估中，OpenAI 使用 Video-MME 测试了 GPT-4.1，该模型旨在衡量模型“理解”视频内容的能力。

OpenAI 声称，GPT-4.1 在“长篇无字幕”视频类别中达到了72% 的最高准确率，高于 GPT-4o 的 65.3%。

图 | 视频长内容测试成绩（来源：OpenAI）

在衡量真实世界软件工程技能的SWE-bench Verified 测试中，GPT-4.1 完成了 54.6% 的任务，而 GPT-4o（2024-11-20）的完成率为 33.2%。这反映了模型在探索代码库、完成任务以及生成可运行并通过测试的代码方面的能力有所提升。

OpenAI 还表示，除了上述基准测试之外，GPT-4.1 在遵循代码格式方面表现更佳，可靠性更高，并且减少了无关编辑的频率。在内部评估中，代码中的无关编辑从 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

图 | SWE-bench Verified 测试成绩（来源：OpenAI）

此外，根据OpenAI 不久前发布的更新日志，OpenAI 将很快从 ChatGPT 中淘汰其两年多前推出的 AI 模型 GPT-4。

OpenAI 表示，自今年 4 月 30 日起，GPT-4 将被 ChatGPT 当前的默认模型 GPT-4o 完全取代。如有需要，GPT-4 仍可通过 OpenAI 的 API 访问。

GPT-4o 最初于 2024 年 5 月作为旗舰模型推出，可实时推理音频、视觉和文本。

OpenAI 在更新日志中写道：“在针对性评估中，GPT-4o 在写作、编码、STEM 等方面始终超越 GPT-4。最近的升级进一步提高了 GPT-4o 的指令遵循、问题解决和对话流程，使其成为 GPT-4 的自然继承者。”

GPT-4 于 2023 年 3 月推出，适用于 ChatGPT 和微软的 Copilot 聊天机器人，具备多模态功能，能够同时理解图像和文本，是广泛部署的 OpenAI 模型的首个版本。

如今，随着OpenAI 刚刚发布的 GPT-4.1 系列模型，以及传闻中待发布的 o3 和 o4-mini 推理模型，GPT-4 的正式退役也在情理之中。

不过，如今OpenAI 面对的竞争压力远远大于 GPT-4 初亮相的时候。在 Gemini 2.5 Pro、Claude 3.7 Sonnet 和 DeepSeek 的夹击之下，新 GPT 和 o 系列模型任重而道远。

参考资料：

https://openai.com/index/gpt-4-1/

https://techcrunch.com/2025/04/14/openai-plans-to-wind-down-gpt-4-5-its-largest-ever-ai-model-in-its-api/

https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/

CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦