(图片来源:钛媒体AGI编辑林志佳拍摄)

继OpenAI推出首个AI Agent(代理、智能体)应用产品后,国内大厂也公布类似Operator的 AI 技术应用。

1月26日消息,钛媒体AGI获悉,字节跳动近日在GitHub上放出一款全新面向图形化用户界面(GUI)的新一代自动化操作模型UI-TARS,它拥有70亿参数规模,将视觉理解、文本处理、操作规划、记忆管理等关键组件深度融合在同一个大模型中,就能完成跨平台复杂任务,并像人类一样感知界面信息、推理操作步骤并执行交互动作。

下图是官方公布的一段用UI-TARS模型完成“自动”发布推文的过程。


当然,目前UI-TARS依然处于Preview和不断迭代阶段,需要人工辅助一些点击步骤和文案撰写等,UI-TARS现已上线MacOS、Windows系统版本。

事实上,两天前的1月24日,美国OpenAI公司正式推出首款AI智能体功能应用“Operator”(意为操作员),能模拟人类操作浏览器完成购物、订餐、论文整理等操作,通过融合视觉识别与高级推理的CUA模型实现复杂步骤规划,已率先面向每月200美元订阅的美国ChatGPT Pro用户开放测试。

最近几个月,“AI智能体”应用概念持续火热。比如,智谱推出了AutoGLM、GLM-PC等多个AI智能体应用产品;字节跳动推出 的AI 应用开发平台扣子已发布了超过200万个智能体,在国内处于领先;今年CES上,英伟达CEO黄仁勋也表示,AI Agent应用可能是下一个机器人产业,蕴藏着价值数万亿美元的机会;Verses团队研发的Genius智能体,仅训练2小时、用了十分之一的数据,就在Pong游戏中超越人类顶级玩家。

OpenAI CEO奥尔特曼(Sam Altman)直言,到2025年,我们可能会看到首批AI智能体应用“正式就业”。这意味着,2025年将成为 AI 智能体应用的发展元年。

针对 AI 应用发展趋势,英伟达合作伙伴、全球多云应用安全和应用交付服务商F5亚太区首席技术官Mohan Veloo近日对钛媒体AGI等表示,未来 AI 应用将更加依赖于API,同时,随着 AI 使用量增加,相关API接口也会呈现爆炸式增长。预计2025年,全球77%的企业将部署生成式AI以提升生产力,到2028年,超过84%的应用将成为AI应用或具备AI推理能力。

很显然,AI智能体应用将变得至关重要,企业需要将重心转向AI应用落地。

字节、OpenAI等中美大模型加速入场,AI 智能体将成下一个万亿赛道

简单来说,AI智能体就是一个具有智能的实体,能够自主感知环境、做出决策并执行行动,它可以是一个程序、一个系统,也可以是一个机器人。

通俗来讲,AI智能体就像一个有智商、有情商、能理解、会帮忙的“小助手”。

一个AI智能体应具备类似人类的思考和规划能力,并具备一定的技能以便与环境和人类进行交互,完成特定的任务。它能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。

2022年底ChatGPT风靡全球之后,大家开始讨论生成式 AI 应用的发展。

2023年,斯坦福大学和谷歌的联合研究团队发表了一篇题为《生成式智能体:人类行为的交互式模拟》的研究论文称,居住在虚拟小镇Smallville的25个虚拟人在接入ChatGPT之后,表现出各种类似人类的行为,由此带火了 AI 智能体(Agent)概念。

2024年3月,Coursera创始人、斯坦福大学教授吴恩达(Andrew Ng)在红杉资本演讲中指出,智能体拥有四种模式:反思、使用工具、规划以及多智能体协同,事实上,Agent的价值被大大低估了,基于GPT-3.5构建的 Agent 工作流在实际应用中的表现比GPT-4更好。

不久前,OpenAI列出实现通用人工智能的五级路线图:L1是聊天机器人;L2是推理者,即像人类一样能够解决问题的AI;L3是智能体,即不仅能思考,还可采取行动的AI系统;L4是创新者;L5是组织者。

在这其中,AI智能体恰好位于承前启后的关键位置,是AGI发展过程中非常重要的一个阶段步骤。AI智能体的出现,标志着 AI 从简单的规则匹配和计算模拟向更高级别自主智能迈进。

“通往 AGI 的道路感觉更像是一段旅程,而不是一个目的地。但我认为这种类型的智能体工作流可以帮助我们在这个非常漫长的旅程中向前迈进一小步。”吴恩达表示。

数据显示,2023年,中国AI Agent智能体市场规模为554亿元,预计至2028年将达8520亿元,年均复合增长率为72.7%。另据黄仁勋预测,AI智能体未来规模将超过万亿美金规模。

澜舟科技CEO周明表示,AI智能体的广泛应用可降低人力成本。对普通人来说,相当于多了很多帮手;对企业而言,也是一个智能化转型的机会。


以Operator为例。

OpenAI将“Operator”描述为一个可以上网为用户执行任务的智能体,是“一种能够独立为你工作的人工智能——你给它一个任务,它就会执行”。

在演示中,用户只需要输入需求,Operator就可以完成餐厅订位、购买日常用品、预订比赛门票等任务。用户可以实时查看进度,并随时介入,遇到付款信息、家庭住址等隐私信息,Operator还会主动暂停让用户接管。

具体的工作流程上,Operator会根据需求捕获屏幕画面,再将其添加到模型上下文,并通过GPT-4o的视觉能力准确理解界面内容,再依靠强化学习的推理能力制定下一步计划,最后使用虚拟鼠标和键盘,精确执行点击、滚动或输入的界面操作,直到任务完成或需要用户输入。

OpenAI的联合创始人Andrej Karpathy曾表示,普通人、创业者和极客在构建Agents方面比OpenAI更有优势,大家处于平等竞争的状态。

截至目前,AI智能体已在客服、编程、内容创作、知识获取、财务、手机助手、工业制造等多个场景中得到应用。其中,在内容创作行业,AI智能体已能实现一句话生成视频,或采用流水线,通过多个大模型协作生成内容更复杂的短片;在文学创作中,通过AI智能体产生剧本、创意等已被更多从业者接受。

如今,字节跳动、智谱、OpenAI、谷歌等中美 AI 大模型公司全面入局智能体赛道,有望迎来新一轮竞争态势。

《2024数字科技前沿应用趋势》报告显示,AI智能体有望成为下一代技术平台。

新一轮AI热潮进入下半场,企业亟待用 AI 降本增效

近日,火山引擎副总裁张鑫回忆道,2023年,那时候大家更多聊的是买卡训练模型,所以出现过“百模大战”;到2024年,大家开始聊AI智能体,企业思考如何基于大模型做出好用的应用产品。未来第三个阶段,随着企业认识到AI大模型的应用和场景越来越多,如何能够通过0代码方式快速、广泛实现创新应用,构建自己的一个AI能力中心,将变得更加关键。

张鑫表示,AI大模型本身是一把“双刃剑”,它在给企业增加了新的生产力工具的同时,可能反而也在削弱一些头部企业的竞争优势,因为“大模型”本质上带来的是一种知识的平权,它能让以往只有一些少数专家才能具备的技能和知识,现在可以变得像“信息”一样让更多的人唾手可得。

加州大学伯克利分校人工智能政策研究员Ritwik Gupta表示,DeepSeek最近发布的模型表明“AI能力没有护城河”。

因此,如何用 AI 大模型能力实现应用方向的创新部署,这对企业发展来说将更加关键。

F5亚太区副总裁、北亚区总裁黄彦文对钛媒体AGI等表示,目前可以看到 AI 行业五个重要趋势:一是不断扩展AI基础建设;二是网络安全更加复杂和挑战;三是企业亟待用 AI 降本增效;四是通过人机协作,利用AI把重复性很高的数据最好的整合,让 AI 助力生产、制造和创新;五是AI与物联网(IoT)、边缘计算和云原生架构等技术深度融合,正加速推动企业AI事项的落地与实践。

“AI技术的深度融合,不仅能帮助我们的客户在复杂多变数字环境中实现更高效、更智能运营,还将进一步巩固F5在全球范围内技术领先地位。”

F5(NASDAQ:FFIV)成立于1996年,是一家总部位于美国华盛顿州西雅图的老牌软件技术公司,也是全球领先的多云应用交付网络(ADN)和应用安全解决方案提供商,而且是英伟达、英特尔等科技巨头的合作伙伴。

最新财报显示,截至去年9月30日的2024财年,F5公司总收入28.2亿美元,与2023财年(28.1亿美元)几乎持平;GAAP下,营业利润6.59亿美元,营业利润率23.4%;其中,F5全球服务收入15.4亿美元,较上年同期增长 4%;软件业务收入较上年同期增长11%。

Mohan Veloo认为,F5拥有大量 AI 和机器学习技术经验,正全面赋能企业客户,现有解决方案包括BIG-IP代码生成等功能都加入了AIGC技术能力。在他看来,F5使命是防护、交付并优化应用及API,通过创新解决方案,助力企业应对AI技术带来的挑战与机遇。面对AI应用产生数据负载,推理与训练节点必须依赖连接,而AI集群运行则离不开调度工具,以确保GPU资源利用并应对故障。F5聚焦这些环节,为企业提供支持,助力企业解决AI问题,推动AI技术落地。

“F5依然是被NVIDIA(英伟达)推荐为入口的最佳选择。”F5中国区产品及解决方案总经理陈亮对钛媒体AGI等表示,此前很多企业客户在大量采购GPU卡、算力,做网络,企业有约70%的资金投入在 AI 基础架构上,而如今,企业需要把后续的重心投入到AI的应用上、大模型的使用上,因为这对于 AI 企业降本增效更为有利。

随着这一轮生成式 AI 热潮进入下半场,“东方神秘力量”DeepSeek大模型引爆了全球 AI 大模型行业关注,中国企业都需要对 AI 应用产业发展更有信心。

DeepSeek声称,其开源基座大模型DeepSeek V3仅使用2048块英伟达H800和560万美元来训练一个包含6710亿个参数的模型,训练成本仅为OpenAI同类模型的十分之一。

这表明,未来企业采用基于大模型的 AI 应用时,成本将会进一步降低。同时,这也预示着,新一轮AI大模型的发展热潮将持续下去。

Meta创始人兼 CEO 扎克伯格(Mark Zuckerberg),“今年将是 AI 的决定性一年。我预计到2025年,预计Meta AI将成为服务超过10亿人的领先助手,Llama 4将成为领先的先进模型,我们将培养一名AI工程师,开始为我们的研发工作贡献越来越多的代码。”

扎克伯格强调,2025年,Meta计划资本投入600亿-650亿美元,比2024年的380亿-400亿美元增长62%,并到年底将拥有超过130万个GPU计算卡。“我们有资本在未来几年继续投资。”

(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)

ad1 webp
ad2 webp
ad1 webp
ad2 webp