新智元报道
编辑:编辑部 HNYZ
【新智元导读】OpenAI给开发者的深夜大礼:一套全新API和工具上线,智能体的开发更简单了!从此无需从不同来源拼凑各种底层API。一个全新API、三个内置工具,以及一个开源SDK,让智能体开发进入next level。
Manus掀起的智能体风暴,再次逼急了OpenAI。
凌晨,OpenAI突然开启线上直播,正式放出开发者自主构建智能体的大礼包——
一个全新API、三个内置工具,以及一个开源SDK。
具体包括:
全新Responses API : 将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体
内置三大工具 : 网络搜索、文件搜索和计算机使用
全新Agents SDK:用于编排单智能体和多智能体工作流程
集成可视化工具:用于追踪和检查智能体工作流程执行情况
以往,开发者构建一款智能体应用,需要从不同来源拼凑各种底层API。
这个过程不仅耗时耗力,就像搭积木一样「摇摇欲坠」,如果一个环节出错,搭出的智能体系统随时可能崩盘。
而现在,OpenAI推出的Responses API和一系列工具,直接简化了核心智能体的逻辑、编排和交互。
与o1 Pro、Deep Research、Operator不同,Responses API是一个「统一API」,可支持多轮交互和工具调用。
其中,「网络搜索工具」可让模型即时访问互联网信息,与驱动ChatGPT Search是同一个工具,在Simple QA中,经过微调后的GPT-4o拿下90%高分,GPT-4o mini得分为88%。
「文件搜索工具」曾在Assistance API中推出,便捷上传、分块、嵌入文档,以及RAG。现在,新增了两个新功能「元数据过滤」和「直接搜索端点」。
「计算机使用工具」在API中被称为Operator,并配备了专门的计算机使用模型(CUA),跟ChatGPT中的Operator使用的是同一款。
结果显示,模型在多项基准测试中刷新了SOTA——OSWorld中成功率38.1%,在WebArena中达到58.1%,在WebVoyager基于网络的交互中达到87%。
从今天开始,计算机使用工具研究预览版,将向3-5级的特定开发者开放,输入价格3美元/每百万个token,输出价格12美元/每百万个token。
另外,奥特曼开源的诺言终于兑现了一部分——Agents SDK,简化多智能体工作流管理。
OpenAI还预告,未来几周和几个月里,还计划发布更多工具和功能,进一步简化和加速在平台上构建智能体应用。
OpenAI现场演示:几大全新工具,构建更强大智能体
ChatGPT中已经推出的两个智能体,我们并不陌生。一个是可以浏览网页、完成各种任务的Operator,一个是能针对任何主题生成详细报告的Deep Research。
但现在,OpenAI希望把这些工具和更多工具以API的形式发布给开发者。
过去一年里,OpenAI也已经推出了高级推理、多模态交互、新的安全技术等全新功能,这就已经打好了构建智能体所需要的复杂多步骤任务的基础。
然而,有很多客户却反馈说,这些功能很难直接转换为可以直接工作的智能体,而是需要大量的大量的提示词迭代和自定义编排逻辑,而且缺乏足够的可见性和内置支持。
而今天这套全新工具,将把智能体构建带入next level。
首先介绍的,就是网络搜索工具。
它允许OpenAI的模型访问互联网上的信息,保证用户得到的结果是最新的和准确的。
网络搜索工具与驱动ChatGPT Search的是同一个工具,它在底层由一个经过微调的模型驱动,此模型就是经过微调的GPT-4o 或4o mini。
它非常擅长处理从网络获取的大量数据,找到相关的信息片段,并在响应中清晰地引用它们。
在Simple QA中,GPT-4o达到了90%的最佳水平。
接下来介绍的,是文件搜索工具。
负责展示的OpenAI研究者表示,这是自己最喜欢的工具。
去年,OpenAI就在Assistance API中推出了文件搜索工具,为开发者提供简便的方式来上传、分块和嵌入文档,并且轻松实现RAG操作。
而今天,他们在文件搜索工具中推出两个新功能。
第一个是元数据过滤。此功能让用户可以为文件添加属性,轻松筛选出与查询最相关的内容。
第二个是直接搜索端点。这样我们就可以直接搜索您的向量存储,而无需先通过模型过滤查询。
也就是说,我们可以使用网络搜索来处理公共数据,用文件搜索来处理私有数据了。
第三个介绍的,就是Computer Use工具。
它是API中的Operator,可以让你控制正在操作的计算机,比如一个虚拟机,或者仅有图形用户界面而没有API访问权限的传统应用程序。
如果想要自动化这类任务,并在此基础上构建应用程序,就可以直接使用Computer Use。
Responses API
另外,OpenAI还希望从基本原则出发,为这些工具设计最佳的API。
2023年推出的Chat Completions和GPT-3.5 Turbo中,所有的API交互都仅限于文本输入和输出。
此后,OpenAI又引入了多模态功能,包括图像、音频。
此外,像o1 Pro、Deep Research Operator这样的产品,都需要在后台执行多轮模型交互和多次工具调用。
因此,他们希望构建一个足够灵活的API基础接口,能支持多轮交互和工具调用。
这个新的API,就被命名为Responses API。
在此前的Chat Completions中,只需选择上下文,选择一个模型,就能获得响应。
而接下来,研究者将展示如何用Responses API构建一个个人造型师助手。
然后就可以直接问它:现在时尚圈的最新流行趋势是什么?
不过,它还应该了解用户的个人喜好。
为此,他们建立了一个向量存储库,里面记录了团队成员的日常穿搭记录。在操作中,可以筛选向量存储中的文件,只显示与目标用户相关的内容。
然后就可以问造型助手:Ilan喜欢穿什么,你能总结一下吗?它立刻给出了准确的总结。
但是要打造一个更好的助手,我们还需要让他能从网上获取最新数据。为此,就要添加网络搜索工具。
接下来,他们考验了是否能用文件搜索工具,来了解Kevin小哥的穿衣喜好,然后用网络搜索工具找到附近让他感兴趣的商店。
模型调用了文件搜索工具,了解Kevin的穿衣风格,然后调用网络搜索工具,根据他的位置——东京,寻找他喜欢的商店。
让人惊喜的是,模型只用了一次API调用,就在东京找到了好几家巴塔哥尼亚专卖店,完全符合Kevin的品味。
但是,这还不够!一个称职的个人造型助手,应该可以直接帮你购物。
为此,他们添加了Computer Use工具,要求助手帮Kevin买一件黑色巴塔哥尼亚夹克。
在电脑本地运行Docker容器后,把截图发给模型,它就会分析计算机的状态,发出下一步指令。
研究者执行操作后,再拍一张截图发给模型,它就会循环操作,直到任务完成。
Agents SDK
在实际开发任务中,应用会更复杂,比如我们需要开发一个客服智能体,它要能处理退款,还能回答常见的客服问题、处理订单和账单。
为此,OpenAI去年已经发布了一个名为Swarm的SDK,让智能体的协同调度变得简单。
今天,他们家决定将Swarm升级为Agents SDK。
研究者Ilan介绍说,自己曾投入大量时间合作企业和开发者,帮他们构建智能体,也亲身体会到看似简单的想法想落地却十分复杂。
Agents SDK的理念就是:保持简单,同时用直观简便的方式构建更复杂强大的功能。
比如接下来的考验就是,不小心订了太多件巴塔哥尼亚的衣服,所以需要退货。
本来,可以直接添加一个退货工具,在提示词中指示就能实现了,但这就存在一个问题:业务逻辑都混在一起,会让智能体更难测试。
而如果采用多智能体脚本,就能独立开发和测试各个模块。
为此,他们专门引入了一个退货智能体。Swarm中特别受欢迎的标准Python函数,都被引入了Agents SDK。
现在,他们已经有了一个造型师智能体,和一个退货智能体,然后需要实现一个简单却强大的概念——任务交接。
它的强大之处就在于,一个智能体处理对话后,将其转交给另一个智能体时,对话内容保持不变,只需在后台替换指令和工具,这就能为对话的每个环节加载上下文。
整个流程是这样的:分类智能体将任务转到了客服智能体,然后客服智能体主动调用了getPastOrders函数,让我们看到了Kevin所有的巴塔哥尼亚商品。
本来这种情况需要手动添加调试语句的,但Agents SDK的一大优势就是内置了监控和追踪功能。
在仪表盘中,我们可以看到所有具体交接的过程
以上展示的,都是Agents SDK 提供的开箱即用功能,它甚至还配置了安全防护机制和生命周期事件处理。
而且,它是一个开源框架。只需执行pip install openai-agents,就可以安装使用了。
在结束之前,Ilan实际执行了一下退款操作。
「你知道吗?抱歉了,Kevin。把这些都退掉吧。」Ilan打趣的说。 「那我穿什么呀? Kevin要 被冻着了,」现场大家都笑了出来。
「是啊,让我们看看。商品还真不少。好了,退回这么多巴塔哥尼亚的商品确实需要点时间。」Ilan开始执行退款。
他在智能体中打出了「get rid of all of them」指令。 几秒钟后,Kevin的巴塔哥尼亚就全都退款成功了。
「那么系统内部是如何运作的?如何进行调试?如何更深入地了解整个过程?」Kevin问道。
对此,Ilan回答说,「我们可以通过追踪界面来查看所有这些信息。这提供了一种非常简洁直观的方式来构建这类应用。」
统一API,4行代码即可上手
Responses API是OpenAI最新的API基础组件,旨在利用OpenAI内置的工具构建智能体。
它结合了Chat Completions的简单性与Assistants API的工具使用能力。随着模型能力不断发展,他们相信Responses API将为开发者构建具备自主能力的应用提供更加灵活的基础。
通过一次Responses API调用,开发者即可借助多个工具和模型交互回合,解决日益复杂的任务。
作为开始,Responses API将支持新的内置工具,包括网页搜索、文件搜索和计算机使用。
这些工具旨在协同工作,将模型与现实世界连接起来,从而更高效地完成任务。
此外,它还带来了若干易用性改进,比如统一的基于项目的设计、更简单的多态机制、更直观的流式事件,以及SDK辅助功能(例如response.output_text),以便轻松获取模型生成的文本输出。
Responses API专为那些希望在应用中轻松结合OpenAI模型和内置工具的开发者设计,避免了集成多个API或外部供应商的复杂性。
这个API还使得数据更易于存储在OpenAI平台上,以便开发者通过追踪(tracing)和评估(evaluations)等功能衡量智能体的性能。
此外,他们也特别提醒,即使数据存储在OpenAI上,他们的模型默认也不会使用企业的数据进行训练。
从今天起,所有开发者均可使用Responses API,且无额外使用费用——相关的token和工具调用将按照他们定价页面上的标准费率计费。
下图是Responses API调用文本模型的价格。全部模型的定价可以参考他们的定价页面。
地址:https://platform.openai.com/docs/pricing
如需了解更多,可以查看Responses API快速入门指南。
地址:https://platform.openai.com/docs/quickstart?api-mode=responses
2年磨一剑
OpenAI的研究员Atty Eleti还在X上分享了设计Responses API的故事。
如今,模型不再局限于文本,而是多模态——能处理图像、音频,甚至更多。
他们具备了智能体的能力,可以调用一个或多个工具,甚至在「说话」之前会「思考」。
这些变化,让OpenAI过去两年开发的Chat Completions API和Assistants API的短板暴露无遗。
Atty还贴出了一张加班图
Chat Completions API是一个无状态的API,每次调用都需要传递全部上下文,对于多模态数据效率极低。而且,它也不支持工具调用,流式处理的实现异常复杂
Assistants API虽然支持工具,但由于设计过于复杂,高抽象带来的学习曲线让人望而却步。后台处理的架构虽然强大,却牺牲了速度。
由此,Responses API诞生了,它是OpenAI过去两年经验结晶,集合了前者简洁性和后者强大功能,既容易上手,又能满足复杂需求。
只需4行代码,即可上手Responses API,文件搜索、网络搜索、函数调用、结构化输出功能,只要一个参数就搞定。
这对现有API意味着什么
· Chat Completions API
OpenAI依旧为Chat Completions API添加新模型和功能。不需要使用内置工具的开发者,可以放心使用Chat Completions。
只要新模型的功能不依赖于内置工具或多次模型调用,就会持续在Chat Completions中发布这些新模型。
不过,Responses API是Chat Completions的超集,且具备相同出色的性能,因此,对于新的集成,OpenAI建议开发者优先选择Responses API。
· Assistants API
根据开发者在Assistants API测试版期间的反馈,OpenAI将其关键的改进融入到了Responses API,使其更加灵活、快速且易于使用。
目前,OpenAI正致力于实现Assistants API与Responses API之间完整的功能对齐,包括对Assistant和Thread等对象,以及Code Interpreter工具的支持。
当这一进程完成后,OpenAI计划正式宣布弃用Assistants API,预计在2026年中停止使用。届时,他们将提供清晰的迁移指南,帮助开发者从Assistants API平稳迁移到Responses API,同时完整保留所有数据并迁移应用程序。
在OpenAI正式宣布弃用Assistants API之前,仍将继续为其提供新的模型更新。
Responses API中的内置工具
网络搜索
当使用GPT-4o和GPT-4o mini模型时,网络搜索功能可作为内置工具,并支持与其他工具或函数调用进行组合使用。
值得一提的是,Responses API中的网络搜索,使用的是和「ChatGPT搜索」同款的模型。
基于此,开发者可以获得快速、最新的答案,并附带来自网络的清晰相关引用。
const response = await openai.responses.create({
model: "gpt-4o",
tools: [ { type: "web_search_preview" } ],
input: "What was a positive news story that happened today?",
});
console.log(response.output_text);
在早期测试中,开发者利用网络搜索构建了各种应用场景,包括购物助手、研究智能体和旅行预订助手——所有需要网络实时信息的应用。
API中使用网络搜索生成的响应包含源链接,如新闻文章和博客文章,让用户能够深入了解更多信息。通过这些清晰的内联引用,用户可以更直观地获取信息,同时内容所有者也获得了接触更广泛受众的新机会。
任何网站或发布者都可以选择在API的网络搜索中显示。
目前,所有开发者都可在Responses API预览版中使用网络搜索工具,并且还可以在Chat Completions API中直接使用微调搜索模型gpt-4o-search-preview和gpt-4o-mini-search-preview。
价格方面,GPT-4o搜索每千次查询起价30美元,4o mini搜索每千次查询起价25美元。
文件搜索
文件搜索工具支持多种文件类型、查询优化、元数据过滤和自定义重排序,可以提供快速、准确的搜索结果。
而且,通过 Responses API,只需几行代码就能完成集成。
在经过改进的文件搜索的加持下,开发者可以轻松地从大量文档中检索相关信息。
const productDocs = await openai.vectorStores.create({
name: "Product Documentation",
file_ids: [file1.id, file2.id, file3.id],
});
const response = await openai.responses.create({
model: "gpt-4o-mini",
tools: [{
type: "file_search",
vector_store_ids: [productDocs.id],
}],
input: "What is deep research by OpenAI?",
});
console.log(response.output_text);
文件搜索工具可用于多种实际场景,包括使客服人员轻松访问常见问题解答、帮助法律助理为专业人士快速参考往期案例,以及协助编程智能体查询技术文档。
同样的,所有的开发者都可以在Responses API中使用文件搜索工具。
此外,OpenAI还为向量存储API对象添加了新的搜索端点,可以直接查询数据用于其他应用程序和API。
价格方面,每千次查询为2.50美元,文件存储费用为0.10美元/GB/天,首个GB免费。
计算机使用(CUA)
为了构建能够完成计算机任务的智能体,开发者可以在Responses API中使用计算机使用工具,该工具由支持Operator的计算机使用智能体(CUA)模型提供支持。
如前所述,这个研究预览版模型在多项基准上刷新了SOTA。
内置的计算机使用工具能够捕获模型生成的鼠标和键盘操作,让开发者能够将这些操作直接转换为环境中的可执行命令,从而实现计算机任务的自动化。
const response = await openai.responses.create({
model: "computer-use-preview",
tools: [{
type: "computer_use_preview",
display_width: 1024,
display_height: 768,
environment: "browser",
}],
truncation: "auto",
input: "I'm looking for a new camera. Help me find the best one.",
});
console.log(response.output);
开发者可以使用计算机使用工具,来自动化基于浏览器的工作流程,如执行网络应用程序的质量保证或在传统系统中执行数据录入任务。
对于那些缺乏API和标准化数据的企业,就可以利用计算机使用工具自动化复杂的运营流程。
在最近与一家主要社区服务组织的试点项目中,Luminai仅用几天时间就实现了申请处理和用户注册流程的自动化——这是传统 RPA(机器人流程自动化)经过数月努力都难以实现的。
在去年通过Operator推出CUA之前,OpenAI进行了广泛的安全测试和红队测试,解决了三个关键风险领域:滥用、模型错误和前沿风险。
为了应对通过API将CUA功能扩展到本地操作系统带来的风险,他们又进行了额外的安全评估和红队测试。
研究人员还为开发者添加了多重防护措施,包括防止提示词注入的安全检查、敏感任务的确认提示、环境隔离工具,以及增强对潜在违规行为的检测。
尽管采取了这些防护措施,但模型在非浏览器环境中仍可能出现意外错误。
例如,CUA在OSWorld中成功率仅为38.1%,这表明该模型在操作系统任务自动化方面尚未达到高度可靠性。因此在这些场景中,OpenAI建议还需要有人类的监督。
开源Agents SDK
除了构建智能体的核心逻辑并为其提供工具访问权限以确保实用性外,开发者还需要管理智能体工作流程。
全新Agents SDK简化了多智能体工作流程的管理,较2024年发布的实验性SDK Swarm有了显著改进。
目前,Swarm在GitHub上已经有19k星,已被开发者社区广泛采用,并在多个客户中成功部署。
项目地址:https://github.com/openai/swarm
此次,Agents SDK的改进包括:
智能体:易于配置的LLM,具有清晰的指令和内置工具
交接:智能体之间的智能控制转移
防护机制:可配置的输入输出验证安全检查
追踪和可视化:通过可视化智能体执行轨迹来调试和优化性能
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
@function_tool
def submit_refund_request(item_id: str, reason: str):
# Your refund logic goes here
return "success"
support_agent = Agent(
name="Support & Returns",
instructions="You are a support agent who can submit refunds [...]",
tools=[submit_refund_request],
)
shopping_agent = Agent(
name="Shopping Assistant",
instructions="You are a shopping assistant who can search the web [...]",
tools=[WebSearchTool()],
)
triage_agent = Agent(
name="Triage Agent",
instructions="Route the user to the correct agent.",
handoffs=[shopping_agent, support_agent],
)
output = Runner.run_sync(
starting_agent=triage_agent,
input="What shoes might work best with my outfit so far?",
)
Agents SDK适用于各种实际应用场景,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售潜客开发。
例如,Coinbase使用Agents SDK快速开发并部署了 AgentKit,这是一个让AI智能体能够无缝连接加密钱包和各种区块链活动的工具包。
Coinbase仅用几小时就将其开发者平台SDK的自定义操作集成到了一个功能完备的智能体中。
AgentKit的精简架构简化了添加新智能体操作的流程,让开发者能够更专注于有价值的集成,而不是消耗在复杂的智能体配置上。
Agents SDK可与Responses API和Chat Completions API协同工作。
同时,该SDK也支持其他提供商的模型,只要它们提供Chat Completions类型的API端点。开发者现在就能将其集成到Python代码库中,Node.js支持也即将推出。
在设计Agents SDK 时,OpenAI团队从社区中其他优秀项目获得启发,包Pydantic、Griffe和MkDocs。
2025年,无疑是智能体元年。
OpenAI最新动向,已经释放出了一个清晰的信号,标志着ChatGPT和开发者工具从简单问答系统,升级为能在现实世界中实际行动的助手。
参考资料:
https://x.com/OpenAI/status/1899476049584599462