新智元报道

编辑:编辑部 HYZ

【新智元导读】OpenAI超级智能体,竟被中国公司抢发?智谱率先卷入L3级使用工具能力,发布全球首个面向公众、回车即用的电脑智能体GLM-PC。

放假倒计时4天,春节期间最少不了的是什么?

发拜年微信!

想象这样一个场景:微信上给xxx发送祝福语,再给他发送一个新春图片和一个新春祝贺视频。

这一幕,听起来是不是比抢红包还刺激?

就在刚刚,一个具有「代码思维」智能体悄然而至——GLM-PC v1.1。

它可以成为你的「手替」,任何事都可以由它代劳。

这不,我们上传一张图片后,然后给出指令——「识别图片中的信息生成朋友圈文案,并发送一个朋友圈」。

它首先会将任务分解成多个步骤,并对图片内容进行识别,生成相应配文。


然后,AI瞬间跳转到微信,打开朋友圈,将图片上传,再附上文案,一键发送就搞定了。


这个神操作,让许多人看了惊掉下巴。

现在的AI都这么强了?

没错,这个在去年11月就抢跑了OpenAI的「GLM-PC」,就是智谱发布的全球首个面向公众、回车即用的电脑智能体,小名叫「牛牛」。


爆料称OpenAI超级智能体也将在本周问世

现在,经过全新升级的v1.1版本,不仅能够像人类一样「观察」和「操作」计算机,自主完成各种复杂任务;而且还拥有「深度思考」模式,以及专门用来做逻辑推理和代码生成的功能。

值得一提的是,GLM-PC的Window和Mac客户端已经同步上线了。


试用地址:https://cogagent.aminer.cn

左脑与右脑,GLM-PC的Agent思维结构

2025年,注定是智能体「元年」。

OpenAI曾被曝出内部AGI路线图,将这一终极目标的实现划分了五级。目前已经实现了L2级,下一步就是向自主AI智能体迈进。


几周前,ChatGPT「任务」功能,已初步向所有人展示了AI自主看股票、提醒日程的能力。


不仅如此,还有谷歌、微软、Ahthropic、亚马逊等国内外科技公司门,纷纷开始在智能体领域发力。

与大洋彼岸的巨头们相比,智谱在智能体领域,早已展现出令人瞩目的领先优势。

值得一提的是,24年10月,他们推出的AutoGLM凭借流畅的智能手机操作能力,迅速引爆科技圈。


智谱之所以能够成为这一领域的先行者,离不开这家公司从成立伊始就绘制出的AI路线图。

2024年,智谱同样将AGI的实现划分了5级,能力从L1逐步攀升至L5。

在他们看来,AI的能力早已突破了传统语言和文本处理限制。

目前,AI已经从语言/文本逐渐扩展到多模态、工具使用,未来还会有更多的自我认知。


而最近,智谱CEO张鹏在Agent OpenDay上,再次阐述了公司对AI能力演进的战略构想:

截至目前,LLM已经初步具备了人类与现实物理世界互动的部分能力。 智能体将会极大地提升L3使用工具能力,同时开启对L4自我学习能力的探索。

这个技术愿景,是智谱所独有的。


GLM-PC v1.1的推出,意味着智谱在L3级智能体的探索又有了新的进展!

截至目前,智谱已经有了手机智能体AutoGLM和电脑智能体GLM-PC两大系统,实现了工具使用能力的深度突破。

这两个系统分别覆盖了移动设备和桌面端——

AutoGLM在手机上,能够精准操控各类应用,实现跨场景智能交互;而GLM-PC则将电脑端的操作提升到了新的高度,基于视觉语言模型VLM的图形界面智能体GUI Agent,实现逻辑推理与感知认知的结合,凸显出AI对复杂系统工具的掌控力。

这些并非是简单功能的堆砌,而是对人机交互范式的根本性重塑。

根据这个技术路线图,AI实现L3之后,通过不断优化工具使用能力,正为L4阶段——自主学习发明创新奠定了扎实的技术基础。

这也正是智谱下一步,所要开拓的智能。

多模态感知,通往全GUI空间交互

回到现在,当前LLM一个明显的缺陷是:能够公开使用的纯文本形式的API工具非常有限。

这就大大限制了语言模型作为Agent的使用场景。那么,我们有什么办法能破局?

智谱选择了一条通往全GUI空间交互的道路——借助多模态感知!

这个思路,就体现在以CogAgent为代表的一系列基于视觉语言模型(VLM)的图形界面智能体(GUI Agent)上。

基于VLM的GUI Agent通过模仿人类行为,就能感知和理解交互界面中的视觉元素与整体布局,并能模拟人类做出任意元操作(例如点击、键盘输入、悬浮、拖拽等)。

这,就拓宽了Agent在虚拟交互空间中的使用边界——理论上,任意人类能做的GUI操作,从此多模态Agent都能完成了!

接下来的问题,就是如何才能让这些智能体去完成实际应用中的复杂任务了。

为此,我们需要打造一个在感知、思维,以及执行层面完备的Agent系统。

感知层面,能接受任务所需的多元信号,如文字、图像、视频、音频。 思维层面,具备严谨的逻辑思维能力和复杂任务规划能力(类似左脑),也具备高效全面的感知能力、灵活的拟人操作能力(类似右脑)。 执行层面,能完成全GUI空间操作,接收环境反馈并自我纠正。

在这之中,最为重要的一点就是,要在逻辑性和创造性之间实现平衡。

如今,智谱通过借鉴人类「左脑」与「右脑」分工,成功实现了逻辑推理与感知认知的深度结合,赋予了GLM-PC这种能力。

Agent左脑:代码思维框架与逻辑执行

智能体的大脑,就好比人类一样,左脑负责逻辑语言、数学等理性的信息,而右脑主要负责的是视觉、感知等感性信息。


那么,GLM-PC的「左脑」便承担着严谨的逻辑推理、代码,以及任务执行职责。

它主要专注于规划、循环执行、动态反思、纠错与优化。

接下来,让我们在实际demo中,具体看看GLM-PC(牛牛)是怎么做到的。

规划(Planning)

想象一下,若是有一个超级助手基于用户需求,能瞬间将复杂任务拆解为清晰可行的步骤,是不是会省力得多。

GLM-PC「左脑」,正是这样一个智能规划的专家。

通过综合分析目标与资源,它能够生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。

马上就要春节了,假设你要采购一批年货,直接将汇总的图片链接扔给牛牛,并告诉它——

获取图片中的商品信息,在桌面新建Excel存储信息,把商品信息加入淘宝购物车。


牛牛获取图片中的信息后,将指令中的需求拆分,先保存Excel文件,然后列出了将魔芋爽、薯片、猪肉脯、辣条添加到购物车的分解步骤。


在规划完成后,GLM-PC将启动代码生成模块,执行逻辑循环,逐步推进任务完成

接下来,就是见证奇迹的时刻了。

循环执行(Looping Execution)

牛牛进入淘宝主页,开始搜索魔芋爽,点击加入购物车;然后再回到搜索主页,查找薯片加入购物车;之后继续执行,直到所有完成商品加入购物车的任务。

完全不用手动,AI就帮你做了。这是因为在规划阶段结束后,GLM-PC 将启动代码生成模块,执行逻辑循环,逐步推进任务完成。

(视频做了一定加速处理)

可见,GLM-PC的循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预。

长思考能力:动态反思、纠错与优化

以上,还只是GLM-PC左脑基本的一个操作。

除了生成静态规划,它还能在执行任务过程中,根据环境信息实时动态调整,反思纠正和自我纠错,从而持续优化解决方案。

举个栗子,你想假期与朋友聚会准备去看一场「春节贺岁档电影」,小红书会有很多推荐。

这时,你根本不用自己去手动搜索,直接打开牛牛,告诉它——

在小红书搜索「春节贺岁档电影」,引用第一篇图文贴的贴子图片,把图片发送到微信上的{GGG}群聊,问他们想看哪一部电影。

如同上个案例,牛牛收到指令后逐步分解任务,先去小红书中搜索「春节贺岁档电影」第一个帖子。


接下来,它又回到工作台,开启一步任务——进入微信找到「GGG」群聊,然后发送消息。


这样一来,你能省下大把手动筛选和分享的时间。

总而言之,通过这些自动化操作,GLM-PC能够提供了更加便捷的社交互动和决策支持。

Agent右脑:图像与GUI认知

见识了GLM-PC「左脑」的强大,它的「右脑」是一个具有深度感知与交互体验的智能系统。

其核心功能涵盖了多个方面,比如GUI图像理解、用户行为认知、图像语义解析、多模态信息融合。

还以春节常见的场景为例,现在有了GLM-PC就能向领导「花样」送祝福了!

给微信上的「大Boss」发送2025年新春祝福语,再给他制作一个新春图片,发送给他

GLM-PC进入微信找到「大Boss」,然后生成简短的祝福语,确认发送。


然后,再回到控制台,生成一张精美的图片发给老板。


有了这个拜年神器,你只管玩手机,群发多少个都能搞定。

左右脑协作,迎来更强泛化能力!

正是上面这种左右脑协作的模式,让GLM-PC成为了Agent of Agents。

现在,它不仅能处理复杂的逻辑任务,在面对开放性问题时,适应能力、创造力和泛化能力也更强了。

比如,即使从未在训练中见过的网页和任务,GLM-PC都能完成。

有了这个AI,手写抄题可以省妈了。

现在只需将试卷PDF文档上传,让GLM-PC提取出想要界面的内容,简直易如反掌。

帮我把桌面的 排列组合与二项式定理练习.pdf文件打开, 引用总结当前界面的前几条数学题 ,放到桌面新建word文档中


成功提取文字后,AI会自动将信息保存到Word文档中。


再比如,我想要追一部剧——「驿站」,直接告诉GLM-PC:「腾讯视频搜索『驿站』电视剧,并播放」。

它会立即跳转到腾讯主页,搜索关键词,打开了视频。


背后模型

GLM-PC的背后,智谱自主研发的多模态Agent模型CogAgent与代码模型CodeGeex。

在智能体运转的过程中,首先会生成代码形式的思维框架,指挥GLM-PC的工作流程和工具调用。

期间,GLM-PC可以稳定高效地应对各种复杂场景和任务。

并且在实际执行时,GLM-PC会感知到来自GUI环境、程序执行环境与模型间的多层反馈,协助反思,有效地自我纠正与优化。


CogAgent-9B-20241220执行指令「标题设置为CogAgent」的过程

其实早在2023年8月,智谱就开始研发首个基于视觉语言模型(VLM)的开源GUI智能体模型——CogAgent。

在经过一年多的迭代升级之后,CogAgent于2024年12月重磅升级到了「9B-20241220」版本,并成功应用在了刚刚推出的GLM-PC上。

值得一提的是,最新的CogAgent-9B-20241220除了已经用在自家产品上外,团队为了让研究者们有机会共同探索与提升与训练GUI Agent,已经在第一时间进行了全面的开源。


开源项目:https://github.com/THUDM/CogAgent

评测结果显示,CogAgent-9B-20241220模型在多平台、多类别的GUI agent及GUI grounding benchmarks上取得了当前最优的结果。

其中,CogAgent在GUI定位(Screenspot)、单步操作(OmniAct)、中文step-wise榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了领先的结果,仅在OSworld上略逊于针对Computer Use特化的Claude-3.5-Sonnet和结合外接GUI grounding模型的GPT-4o。


下一步,装进AIPC

下一步,GLM-PC还将与AIPC深度融合,让所有人触手可及。

据称,智谱正与联想、华硕等知名PC厂商展开深度合作探讨,共同推动AIPC的创新与发展。

AIPC绝不仅仅是一台电脑,更是Agent在个人计算领域的全新应用。

未来,是一个智能无限的世界。

个人电脑能够完全理解你的意图,自动帮你优化工作流程,而且7x24小时待命,随时提供精准的智能支持。

现在,GLM-PC正将这个未来变成现实。而我们,已经站在了这场智能革命的最前沿。

参考资料:

https://cogagent.aminer.cn/

ad1 webp
ad2 webp
ad1 webp
ad2 webp