GPT-4.1 来了。

北京时间4 月 15 号凌晨,OpenAI 直播发布了名为 GPT-4.1 的多模态系列模型。

它有三个版本:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。其中 mini 和 nano 的效率更高、速度更快、成本更低,但牺牲了准确性。


图 | GPT-4.1 与 GPT-4o 系列对比(来源:OpenAI)

OpenAI 表示,“它们编码和指令遵循方面取得了重大进展。完整的GPT-4.1 模型在几乎所有维度上均优于 GPT-4o 系列模型。”

仅从基准测试成绩来看,GPT-4.1 的纸面性能虽然比自家前辈有所提升,但如果跟谷歌、Anthropic 等竞争对手的旗舰模型相比,还是有一定的差距。

看来想要完全超越竞争对手,OpenAI 只能尽快拿出 o3 完全体了。


(来源:evalarena.ai)

值得注意的是,GPT-4.1 系列模型目前只能通过 OpenAI 的 API 获取,无法在 ChatGPT 上使用。

与此同时OpenAI 还宣布,将很快停止通过 API 提供其有史以来最大的 AI 模型 GPT-4.5。该模型是今年 2 月刚刚发布的,其运行成本十分昂贵,API 定价也高达每百万输入 75 美元,每百万输出 150 美元。

今年7 月 14 日之后,API 开发者必须将 GPT-4.5 服务转移到 OpenAI 的其他模型,首选替代方案是 GPT-4.1。这暂时不会影响通过 ChatGPT 使用 GPT-4.5。

GPT-4.1 系列模型的上下文窗口提高到了 100 万 token(包含文本、图像或视频的组合),这意味着它们可以一次性输入大约 75 万个单词。此前的 GPT-4o 最多支持 12.8 万 token。

但OpenAI 也承认,GPT-4.1 处理的输入 token 越多,可靠性就越低,更容易出错。

在该公司自己的测试OpenAI-MRCR 中,随着 token 的数量从 8000 增长到 100 万,模型的准确率从 84% 左右下降到了不足 50%。该公司表示,GPT-4.1 也比 GPT-4o 更“直接”,有时需要更具体、更明确的提示。


图 | GPT-4.1 系列模型定价(来源:OpenAI)

定价方面,GPT-4.1 每百万输入 token 成本为 2 美元,每百万输出 token 成本为 8 美元。GPT-4.1 mini 每百万输入 token 成本为 0.4 美元,每百万输出 token 成本为 1.6 美元;GPT-4.1 nano 每百万输入 token 成本为 0.1 美元,每百万输出 token 成本为 0.4 美元。

综合来看,GPT-4.1 的成本比 GPT-4o 低 26%。同时,OpenAI 还将新模型的即时缓存折扣输入提高到了 75%(之前为 50%)。

性能方面,GPT-4.1 可以一次性生成比 GPT-4o 更多的 token(最多 32768 个 token),在最受程序员关心的 SWE-bench Verified 上的得分在 52% 到 54.6% 之间。这个成绩低于谷歌 Gemini 2.5 Pro 的 63.8% 和 Anthropic Claude 3.7 Sonnet 的 62.3%。

对于需要编辑大型文件的API 开发者来说,GPT-4.1 在跨多种格式的代码差异分析方面更加可靠。在 Aider 的多语言差异基准测试中,GPT-4.1 的得分是 GPT-4o 的两倍多,甚至比 GPT-4.5 还高出 8%。

“我们专门训练了GPT-4.1,使其能够更可靠地遵循差异格式,这使得开发人员只需让模型输出更改的行,而无需重写整个文件,从而节省成本和延迟。”OpenAI 写道。


图 | 多模态性能对比(来源:OpenAI)

这一点在指令遵循上也有所体现。

OpenAI 在博客中介绍称,GPT-4.1 能更可靠地遵循指令,并且“已经在各种指令遵循评估中测量到了显著的改进”。

OpenAI 开发了一个内部教学跟踪评估系统,以跟踪模型在多个维度和几个关键教学跟踪类别中的表现,包括格式遵循、避免负面指示、有序遵循指令、遵守内容要求、排序和过度自信。

这些类别是根据开发人员的反馈得出的,这些反馈是关于哪些指令遵循方面对他们来说最相关且最重要。在每个类别中,OpenAI 将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。


图 | OpenAI 内部指令遵循测试结果(来源:OpenAI)

多轮指令遵循对许多开发者来说至关重要。对于模型而言,在对话中保持连贯性并跟踪用户之前输入的内容至关重要。

“我们已经训练了GPT-4.1,使其能够更好地从对话中的过往消息中识别信息,从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有效指标,GPT-4.1 的表现比 GPT-4o 提高了 10.5%。”OpenAI 表示。

GPT-4.1 在前端编码方面也比 GPT-4o 有了显著提升,能够创建功能更强大、更美观的 Web 应用。在 OpenAI 的评估中,相比 GPT-4o,测试人员更喜欢 GPT-4.1 创建的网站。

在另一项评估中,OpenAI 使用 Video-MME 测试了 GPT-4.1,该模型旨在衡量模型“理解”视频内容的能力。

OpenAI 声称,GPT-4.1 在“长篇无字幕”视频类别中达到了72% 的最高准确率,高于 GPT-4o 的 65.3%。


图 | 视频长内容测试成绩(来源:OpenAI)

在衡量真实世界软件工程技能的SWE-bench Verified 测试中,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o(2024-11-20)的完成率为 33.2%。这反映了模型在探索代码库、完成任务以及生成可运行并通过测试的代码方面的能力有所提升。

OpenAI 还表示,除了上述基准测试之外,GPT-4.1 在遵循代码格式方面表现更佳,可靠性更高,并且减少了无关编辑的频率。在内部评估中,代码中的无关编辑从 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。


图 | SWE-bench Verified 测试成绩(来源:OpenAI)

此外,根据OpenAI 不久前发布的更新日志,OpenAI 将很快从 ChatGPT 中淘汰其两年多前推出的 AI 模型 GPT-4。

OpenAI 表示,自今年 4 月 30 日起,GPT-4 将被 ChatGPT 当前的默认模型 GPT-4o 完全取代。如有需要,GPT-4 仍可通过 OpenAI 的 API 访问。

GPT-4o 最初于 2024 年 5 月作为旗舰模型推出,可实时推理音频、视觉和文本。

OpenAI 在更新日志中写道:“在针对性评估中,GPT-4o 在写作、编码、STEM 等方面始终超越 GPT-4。最近的升级进一步提高了 GPT-4o 的指令遵循、问题解决和对话流程,使其成为 GPT-4 的自然继承者。”

GPT-4 于 2023 年 3 月推出,适用于 ChatGPT 和微软的 Copilot 聊天机器人,具备多模态功能,能够同时理解图像和文本,是广泛部署的 OpenAI 模型的首个版本。

如今,随着OpenAI 刚刚发布的 GPT-4.1 系列模型,以及传闻中待发布的 o3 和 o4-mini 推理模型,GPT-4 的正式退役也在情理之中。

不过,如今OpenAI 面对的竞争压力远远大于 GPT-4 初亮相的时候。在 Gemini 2.5 Pro、Claude 3.7 Sonnet 和 DeepSeek 的夹击之下,新 GPT 和 o 系列模型任重而道远。

参考资料:

https://openai.com/index/gpt-4-1/

https://techcrunch.com/2025/04/14/openai-plans-to-wind-down-gpt-4-5-its-largest-ever-ai-model-in-its-api/

https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/

ad1 webp
ad2 webp
ad1 webp
ad2 webp