智东西
作者 ZeR0
编辑 漠影
智东西2月3日报道,今天,OpenAI在日本连干两件大事:上午上新Deep Research功能,下午宣布成立合资公司SB OpenAI Japan,为酝酿多时的agent大战擂响冲锋的战鼓。
Deep Research(深度研究)是OpenAI推理模型触发的最强连招,是一个用o3模型造出的一个联网版推理Agent,能够快速创建研究分析师级的专业报告。
SB OpenAI Japan里的“SB”,是指孙正义的软银,两家公司正在合作蜜月期,合资企业将专注于独家推销一种新型高级企业AI——Cristal intelligence(水晶智能)。
▲孙正义分享AGI雄心(图源:Nihon Keizai Shimbun)
软银将财大气粗地每年投资30亿美元买OpenAI的技术,其集团及其子公司也将在日本优先获得OpenAI的ChatGPT企业版、API、自定义模型、agent产品(如Operator、Deep Research)。
软银旗下的英国半导体IP公司Arm也将使用OpenAI工具来提高公司生产力。
而这已经是短短两周之内,OpenAI大举进攻agent市场的第三次连招。今年1月24日,OpenAI发布首款AI agent Operator,它能自主与浏览器交互,替用户完成预订机票、预订晚餐、编写网站代码等几乎所有联网任务。
显然单兵作战的ChatGPT,还不足以成为一款独当一面、为人类办事的超级助理。而让AI进阶成为真正能扛事的虚拟员工或个人助手的下一个智能形态,就是AI agent。
不知道OpenAI是故意撞名还是懒得想新名字。去年12月,谷歌AI助手Gemini Advanced推出的第一个Agent功能也叫Deep Research,也是创建一个多步骤研究计划,深入分析网络相关信息,快速搞定一份综合分析报告。
OpenAI宣布,其AI推理模型将在2025年发展成为agent——能够为用户工作的AI。
无论是作为更具说服力的付费产品,还是更接近通用人工智能(AGI)的能力表现,AI agent都是一个更有希望改变游戏规则的新品类。两天前OpenAI首席产品官Kevin Weil在论坛回复中透露,OpenAI正在训练一些专业模型,使其首款agent Operator更快更便宜。
随着AI大厂们的agent相继问世,2025年首个生成式AI火热赛道渐成燎原之势,2025年将是agent落地元年!
一、SB OpenAI Japan成立:卖“水晶智能”,圆日本AGI梦
今日软银、OpenAI、Arm联合举办了一场直播活动,据说现场高管代表的公司总市值占日本总市值的一半以上。软银集团创始人孙正义在演讲中称,他相信AGI将在不到10年的时间内成为现实。
下午,OpenAI和软银集团联合宣布成立一家合资公司SB OpenAI Japan,并宣布OpenAI在2024年推出的AI推理模型将在2025年发展成为agent。
只要给它一个任务,AI agent就会执行,成为能够独立为用户工作的贴身虚拟助手。面向企业工作,用于知识工作的AI agent将自动执行生成财务报告、起草文件、管理客户查询等日常任务,使专业人员能够专注于创造力和战略决策。
OpenAI、软银集团、Arm、软银公司有一个共同愿景:“让AI agent帮助提高每一位知识工作者的效率,并解决更复杂的问题。”
SB OpenAI Japan将由OpenAI和软银(软银集团+软银公司)各持股50%,作为根据日本企业独特需求引入AI agent的跳板,并为全球应用探路。
合资公司专门向日本大型公司销售“水晶智能(Cristal intelligence)”。
“水晶智能”是两家公司合作开发的专为每家公司量身定制的高级企业AI,将安全地集成各个企业的系统和数据,并使企业能构建与自家IT系统完全集成的AI agent,将所有任务和工作流程自动化、自主化。
孙正义相信,AGI首先可在大型企业业务中实现,实现这一目标需要相当巨额的资金,这样的资金目前只有大型企业才能获得。
通过“水晶智能”,OpenAI的agent将为更先进的系统奠定基础。这些系统可以学习并适应企业的任务需求。
Arm将利用“水晶智能”推动创新并提高整个公司的生产力。
软银公司计划用“水晶智能”实现超过1亿个工作流程的自动化。在以安全的方式提供数据和额外训练的同时,软银公司还旨在提高效率,并在其生态系统内创造新的商业机会。
为了利用这些数据,软银公司和合资公司将建立一个安全的环境,用于额外的数据训练和数据微调,并将其与内部系统集成,以构建AI agent。
OpenAI将为SB OpenAI Japan提供其先进的AI研究、技术和工程支持。软银公司将借调其销售人员和工程师,贡献广泛的日本网络、运营专业知识和商业洞察力。Arm计算平台将提供所需的性能、效率和可扩展性,以支持从云端到边缘的AI agent日益增长的计算需求。
二、软银将每年花30亿美元,买OpenAI的技术
软银集团公司每年将花费30亿美元在其集团及子公司中部署OpenAI的解决方案,使软银成为全球第一家大规模集成“水晶智能”的公司,同时还将ChatGPT企业版等现有工具部署给整个集团的员工。
作为与OpenAI协议的一部分,软银旗下公司将在日本优先获得OpenAI开发的最新和最先进的模型。
据外媒报道,OpenAI联合创始人兼CEO萨姆·阿尔特曼将于周一晚些时候与孙正义在东京会见日本首相石破茂,而石破茂将在本周晚些时候前往华盛顿与美国总统特朗普会面。
过去两周,孙正义和阿尔特曼的关系急剧升温,先是由新上任的特朗普总统宣布软银、OpenAI、甲骨文的合资企业“星际之门(Stargate)”,又被曝软银将领投OpenAI新一轮融资。
就在几天前,据外媒报道,OpenAI正在筹集至多400亿美元,其中软银将投资150亿~250亿美元。如果此轮融资完成,OpenAI估值将高达3400亿美元,而软银将超过微软成为OpenAI的最大财务支持者。
据说阿尔特曼和孙正义还将在东京与大约500家企业举行一个论坛,预计将宣布推动日本AI基础设施发展的计划。
阿尔特曼向《日经新闻》透露,他希望与苹果前首席设计官乔尼·艾维合作,开发一种新型AI硬件,预计推出原型机还需要几年时间。他也提到DeepSeek是一个“很好的模型”,凸显了AI推理的激烈竞争,但其“能力水平并不新鲜”。
三、新AI agent登场:30分钟搞定分析师报告,“人类最后的考试”断层第一
今天上午,OpenAI发布的另一个AI agent大招是Deep Research(深度研究),能联网搜索信息,只花5到30分钟,就能输出一份堪比研究分析师创建的专业报告。
而人类做同样的工作,可能要花几小时甚至很多天,还要花费几百美元。
这是OpenAI的第二款AI agent。其第一款agent Operator在1月24日发布,可以自主浏览互联网,并根据用户的需求完成预订餐厅、在线采购、填写表格、管理日程表、制作PPT等日常任务,是一项面向大众需求的产品。
Deep Research则走专业路线,能搜索、解释和分析网络上的大量文本、图像、PDF,在极短时间内旁征博引,然后生成非常专业的综合分析报告,还附有搜索过程和索引。
阿尔特曼发文说,虽然这个agent比较慢,但它是“第一个能够执行如此多种复杂、有价值的任务的AI系统”,就像有“超能力”。
在高难度AI评估“人类最后的考试”中,Deep Research取得断层第一。该评估包含100多个主题的3000个专家级问题,Deep Research的准确率是26.6%,而o3-mini是13%,DeepSeek-R1是9.4%,GPT-4o只有3.3%。
这款agent由OpenAI o3推理模型提供支持,针对网页浏览和数据分析进行了优化。
据OpenAI介绍,Deep Research是为在金融、科学、政策和工程等领域从事知识密集型工作并需要彻底、精确和可靠研究的人构建的,对需要仔细研究分析产品的消费者也很适用,比如联网分析推荐采购哪款滑雪设备。
在化学、语言学、卫生保健等专家级任务的内部评估中,Deep Research浏览和思考得越多,表现就越好。
坏消息是,Deep Research仍然不能杜绝输出错误信息,也难以辨别谣言,只是相对来说产生幻觉或错误推论的几率会比以前的ChatGPT模型少,而且会完整记录有明确的引文和思考摘要。
跟Operator一样,Deep Research最初向至尊版ChatGPT Pro订阅用户(每月200美元)开放。
该agent首先会在ChatGPT网页版上线,本月推广到移动和桌面app。Pro用户每月最多可进行100次查询。OpenAI预计1个月内扩大范围,让每月20美元的Plus用户也能使用Deep Research。Team和Enterprise用户也将获得访问权限。
目前ChatGPT Deep Research只能输出文本,但OpenAI计划很快添加嵌入式图像、数据可视化及其他分析输出,还将增加连接更专业数据源的能力。
OpenAI在博客文章中说,Deep Research未来“能够进行异步在线调查的深度研究与能采取真实世界行动的Operator相结合,将使ChatGPT能够为你执行越来越复杂的任务”。
上上周刚推出的AI agentOperator,由GPT-4o提供支持,能与计算机UI界面的按钮、菜单、文本消息进行交互,替用户完成点午餐外卖、预订餐厅、订购产品、创建待办事项、管理日程等事务。在需要用户输入登录密码、付款信息等敏感内容时,它就会启动“接管模式”,不会收集屏幕信息。
理想状态下,agent将不需要人类的帮助和干预,就能高效完成任务。不过根据一些尝鲜网友晒出的体验,Operator表现很出彩,甚至还会在订餐时自动给外卖员付小费,但目前还有一些瑕疵,浏览互联网不娴熟,偶尔会搞错一些细节,会被一些网页拦截,需要人类全程监控。
此前Operator仅限美国ChatGPT Pro用户使用,但在今年春节期间DeepSeek的刺激下,OpenAI可能会加速扩大其可用范围。
在由阿尔特曼等多位OpenAI高管主持的Reddit AMA(问我任何问题)上,阿尔特曼证实Operator还需要等几个月才会向ChatGPT Plus用户开放。
结语:agent落地加速进行时,可靠性仍难越关山
过去两周的密集行动,已经挑明了OpenAI今年的三大重点方向:AI agent、深度研究、AI基建。
上周四,在华盛顿举办的一场活动上,阿尔特曼称赞DeepSeek“显然是一个伟大的模型”,说“这提醒我们竞争的水平以及AI民主化获胜的必要性”,也表明了“对推理、开源的兴趣”。
如今来自东方的DeepSeek已化身“价格屠夫”,把AI聊天应用和推理模型的价格砍下来,令硅谷动荡不安、华尔街丛生疑窦。OpenAI亟需稳定军心,不仅要考虑调整闭源策略,还要力证其大举烧钱投入AI基础设施的合理性,而志在解决生产力问题的agent无疑是更值得付费的新产品。
OpenAI的agent,意在瞄准更追求精确可靠的严肃任务,这也意味着让人们接受这类新品的难度远高于ChatGPT。毕竟人们可以接受AI聊天机器人胡言乱语,但很难容忍一个AI助理给自己的工作或生活添乱。
国内大模型独角兽智谱去年11月上线了能自动上网的自主agent插件,一些能做浏览器操作的agent的开源项目也已经发布。这场agent开发竞赛有望在今年愈演愈烈。
而把AI推理模型价格打下来的东方力量,如何在agent赛道讲出新故事,则是下一个令人期待的焦点。