文 | 硅谷101
今年3月初,一款名为“Manus”的通用AI agent产品发布之后爆火。到了3月底,Manus的母公司Butterfly Effec被爆正寻求新一轮融资,目标估值将超过5亿美元。
由于Manus处于内测阶段,仅以邀请码形式开放使用,一度让邀请码在二手平台上被炒到数万人民币,无数开发者、投资人和从业人员排着队等测评。
与此同时,业内对Manus的评价从最开始一边倒的追捧,开始有了越来越多质疑和批评的声音。
对Manus的争议一方面来自于这个团队并没有非常强的技术能力,大模型用的Antrhopic的Claude、之后与阿里通义千问合作,被质疑是“套壳”产品,没啥门槛。公司打出的营销话术“世界上第一个通用AI agent”明显不属实,国际开发者社区早就有这样的general AI agent产品,加上各种媒体和自媒体早期夸张的修饰用词,反而引发了不少人对Manus激进营销的反感。
但是在另一方面,一些投资人和从业者却看到了非常积极的一面,认为Manus在产品交互上确实做得可圈可点。他们指出这个年头做demo容易,做出一款好产品却很难,创业公司做推广的时候大胆一点没什么不好。
而更加让人振奋的是,Manus虽然不够好,但却让人看到了AI应用爆发前夕的黎明曙光。
这篇文章我们就来聊聊Manus引发的热捧与争议、AI agent的技术发展路线、目前面临的技术瓶颈、什么是一款好的AI agent产品,以及通用AI agent何时才能来临。
01 测评Manus
- Chapter 1.1 开发者测评Manus
硅谷101也拿到了几个邀请码,团队的小伙伴们都测试了一遍,但效果确实比期待中差了不少。
Jacob 硅谷101后期负责人: 我用Manus找一下稿件中的信息来源,我觉得对于GPT是更加聪明了一点,但是很简单多任务它花了半个小时才跑完。
陈茜 硅谷101联合创始人兼视频主理人: 我让它帮我整理分镜稿,感觉它的审美像实习生,而且做文章的分镜图时卡了21个小时,现在还卡着。
泓君 硅谷101联合创始人兼视频主理人: 让Manus整理微信文字稿时出现了幻觉问题。
王可倚 硅谷101特约研究员,《创客人生》主理人: 它最开始听懂了我的需求,但是执行中途就跑偏了。
我们也邀请了AI agent开发者Nathan Wang来系统性地评测下Manus。Nathan在过去两年有着丰富的AI agent及AI应用开发经验,他希望能量化地表示模型的能力,所以建立了一个测评的机制,并且这个系统也可以去测评其他应用或是模型。以下为Nathan评测的部分内容:
我主要有三个衡量指标:“准确度”、“可用度”、“完成度”,同时以“研究”、“教育”、“生活”、“数据分析”、“创意性工作”这五项任务归类。
我根据每个指标的表现从1到5打分,表现越好得分越高,表现越差得分越低,最后取三个维度的平均分。
先说它做得好的部分:研究方面为4分,教育方面为4.5分。这两块的能力是非常强的,正确性、完成度都很高。
但这两个领域的结果其实是符合我们预期的,因为ChatGPT、 Claude还有Gemini都是有深度研究的功能,它其实就是在互联网上帮你查找各种各样的信息,根据需求让大模型解释,或者做出一些行动。
Manus AI构架背后用的是其他模型,据传言说是Claude、DeepSeek-R1,Manus会利用这两个模型,根据用户需求生成一个任务列表,然后Manus可以通过编程、互联网搜索,像人一样查阅浏览器上的内容,来抓取信息。
总体来说,Manus更多是通过工具、函数、API来获得信息并总结,或者通过渲染的形式给用户表现出来,比如做成一个表格、执行一些程序等。
但除了研究和教育外,Manus在生活、数据分析、趣味性方面的得分却比较低,“生活”为3.5 分,“数据分析”为2.5分,“趣味性”2.5分。
在我们的测试中,Manus遇到的比较大的问题是,它将不同信源信息整合在一起的能力不是特别强;模型本身的逻辑能力、信息综合能力还不够,尚不足以在用户的实际体验中提供有效的帮助。
以上是Nathan评测的一部分节选,想看完整版的观众可以收看硅谷101视频或Nathan的微信视频号“硅谷AI领航”。
简单总结下Manus的能力:在简单一些的任务上,它给到了很丝滑的通用AI Agent的交互产品形态,虽然Nathan认为这个产品在硅谷开发者社区中很早就有公司有人在做了,但是对非开发者2C用户来说,当看到Manus页面上展示出它真的在加速看视频、读取文档、访问不同的网站搜索信息时,确实让用户第一次感受到了“AI agent”在虚拟世界充当机器人、帮用户完成一系列任务的潜力,还是非常惊艳的。
当然对于稍微有难度的任务它完成得不太好,甚至出现了卡壳几十个小时的现象,说明它还处于非常早期的产品阶段,之后还需要很多的迭代。
- Chapter 1.2 2C产品的用户阈值与“叫醒铃”
也有嘉宾认为,我们应该对AI初代产品有所谓的“阈值”概念。在到达AGI之前,也许不会有准确度100%、完全准确不出错的通用AI agent。大家需要给AI agent一些时间和耐心,不同人群的需求,会从简单到复杂逐渐迭代地被实现。
周炜 创世伙伴资本(CCV)创始主管合伙人 前KPCB中国基金主管合伙人: 我认为Manus这个产品超过了用户的阈值。用户要把一个产品作为生产力工具,它必须要超过达到某个满意度以上才可以完整的使用。 ToB端其实有很多AI产品已经有很好的收入了,但是C端来说,大家以前没有感觉到有个产品改善了生活,我认为Manus做到了这点,它把用户体验做得很不错。虽然目前它的能力比较普通,最终也不可能面面俱到,但至少从目前来看,它的一些功能都做得很完善,未来还有继续提升空间。
我们看到一些争议,说它只是AI操纵大师,指挥另外两个AI底层模型来完成任务,这种讨论说明了一个问题,那就是目前AI从业者群体里面有一个很大的误区:在技术上自嗨。 我印象很深的是,乔布斯被踢出苹果又回去后,在一个公开大会上有1000多个工程师,其中一个工程师站起来挑战他说:你又不懂技术,凭什么指导我们、做这个公司的领导者?乔布斯的回答是:我知道如何满足用户需求、用户需要什么样的产品、并且我可以把它卖出去。
我觉得这就很好地回答了现在对Manus的质疑,在指责它仅仅是一个AI指挥大师的时候,为什么你不去做一个完美的用户界面来实现用户真正的需求?这才是现在AI从业者需要思考的问题,怎么让产品体验超越用户的阈值、能够变成生产力工具,如果做到了这一点,市场认可度就会很高。
Deepseek对全球来说一个Wake-up call(叫醒铃),它告诉大家:原来大模型还可以用这种路径来实现,而不是通过暴力堆叠的路径。而Manus我觉得也是一个叫醒铃,它告诉所有的AI从业者,不要痴迷于技术底层,你要做的是提供一个完整度高的产品,让大家都用起来,最终实现技术平权、技术普惠,如果连老爷爷、老奶奶都开始用它并且觉得好用,这才是目前ToC端产品的大成就。 Manus给了一个非常清晰的信号:大模型底座已经准备就绪了,足够做一个完成度高的产品。所以我觉得现在是非常好的发力时机。
TensorOpera AI联合创始人何朝阳认为,要做好AI agent产品,有四个纬度:“模型”、“工具”、“数据”、“基础设施”。产品或公司至少要在其中两项占绝对优势,才能保持领先。他认为,Manus占据了“工具”和“数据”这两个优势。
何朝阳 TensorOpera AI ChainOpera AI联合创始人: Manus占到了工具的优势,因为他把多个工具缝合到了一起,他可能也有一些独特方式,比如指挥多个agent相互合作。我觉得把各种工具缝合本身就是一个特点,它确实可能用的是其他的底层模型,但它可以收集用户发送的prompt(提示词),对比哪些提示词输出的结果更好,这样就可以帮助它迭代升级。
因为Manus有先发优势,可以早点拿到用户数据,可能会发现哪些agent更重要,然后更快速的迭代它,所以它其实已经在不断升级数据和工具的路上了,这刚好是应用创业者要去做的。 至于模型和基础设施,我觉得跟大厂合作就好了,就不要去四两拨千斤了。
“技术已经Ready了”,这是我们和很多AI从业者和投资人交流的时候,他们透露出的信号和见解。
02 AI Agent技术发展史
过去一段时间“agent”这个词稍微有点被“太泛化”了,门槛有点过低,所以我们先明确下AI Agent的定义。
技术人员通常将AI Agent定义为:具有“逻辑推理能力和决策能力”(Reasoning)、“记忆能力和上下文理解”(Memory)、“工具使用能力”(Tools)这三种能力,甚至更进一步说,还需要具备学习使用不同新工具的能力。
Keith Zhai Tiny Fish联合创始人: 我们自己定义的agent,它应该在某种意义上像人一样,可以使用各种网页工具,也同时还可以学习怎么使用不同的东西,但这点对Agent来说是非常难的挑战。
我们来看看过去几年,AI生态圈是怎么发展推理(Reasoning)、记忆(Memory)和工具(Tools)这三种主要能力的。
- Chapter 2.1 推理能力
Nathan Wang 硅谷101特邀研究员 AI Agent开发者: AI Agent需要有很强的逻辑能力,因为它最终帮用户执行任务的时候,需要理清楚这个任务该如何决策?用哪些工具?得到信息之后应该做哪些动作?所以推理(Reasoning)是最重要的能力之一。
2022年10月,就在ChatGPT上线的一个多月前,ReAct框架被普林斯顿和Google Brain合作的团队提出。
ReAct是一个将推理和行为与LLMs(大语言模型)相结合通用的范例,这让大模型不仅能回答问题,还能推理并采取行动。简单来说,就是让AI在回答问题的同时,能够执行一些动作,不只是“动动嘴皮子”。
Nathan Wang 硅谷101特邀研究员 AI Agent开发者: ReAct所做的事情更加偏向于prompt engineering(提示词工程),他其实是通过设定一些不同的提示词,能让大语言模型按照一定的格式去输出。
比如说第一步是先理解用户想要的是什么,然后再思考下一步要去做什么,同时也告诉模型,有哪些工具可供选择。当模型有逻辑能力之后,它会选择一种工具,比如用户要订机票,那就要去搜索机票相关的信息,然后agent就会通过调用某个工具或API,也可以是模型自己写的功能,来完成这一系列的动作。得到这些信息后,agent还要思考,下一步是要帮用户定这个机票,还是告诉用户这个信息,再让用户来决定。所以所有AI Agent的构架其实都是从这篇论文开始的。
但当时的最先进模型GPT-3.5的能力相对有限,使得AI Agent的逻辑推理能力并不出彩,错误率很高。
而后来发布的GPT-4在理解能力、推理能力、回答质量都大幅提升。同时2023年3月23日,ChatGPT插件功能Plugin发布,允许大语言模型调用外部工具并开发APT,支持开发者将LLM与数据库、工具和互联网连接。这些都让AI agent的开发者们兴奋不已。
Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 刚开始ChatGPT只能做一些对话、生成文本,但后来它就可以搜索互联网上的内容了,还可以让它接入不同的数据库去提取信息,或者使用一些工具。 那时开发者社区沸腾了,因为整个模型有了推理能力,也可以接入各式各样的工具来完成一系列复杂的操作。当时有个公司比较有意思,叫做Zapier,这个公司是2011年成立的,但它们主要做一些自动化工具。但大语言模型发布后,他们就第一时间去帮大语言模型去做这系列工具,很多早期的开发者应该都用过Zapier,比如它可以让大语言模型接入谷歌邮箱,或许其他的应用,让大语言模型可以完成更复杂的工作。
所以在2023年初,AI Agent技术三大要素的第一步已经搭建好了,逻辑推理能力提到了显著提升,也可以接各种外部API、调用外部工具来完成任务。
接下来,开发者生态进入到了技术发展的第二章:记忆能力与上下文理解。
- Chapter 2.2 记忆能力
Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 刚开始GPT大概只有4096个token,其实是非常少的,大概只能输入3000多个英文单词,那时大家非常苦恼没有办法输入更多信息让模型去执行地更好。 但到5月份的时候,OpenAI最大的竞争对手Anthropic,发布Claude模型。这个模型一开始得到开发者的关注,主要原因就在于,跟ChatGPT相比,Anthropic可接受的token大概提升了100多倍,意味着它可以获得更多的信息去思考和决策。所以Anthropic的发布也是技术史上非常关键的一笔。
2023年5月11日,Anthropic推出的Claude模型可以支持10万token的上下文窗口,使得LLM能够处理更大规模的信息,并增强基于大量信息的推理和决策能力。
不久之后的2023年6月13日,OpenAI也在这一方向做出了技术迭代,发布函数调用(Function Calling),引入JSON模式和1.6万token的上下文窗口。这让AI可以更可靠地调用外部API,比如说查天气、自动填表等等任务。
紧接着在2023年11月21日,Anthropic的Claude 2.1版本又进一步,把上下文窗口扩展到20万个token,相当于AI一次性可以记住一整本教科书的内容,思考能力大大提升。也意味着能进一步扩大大模型的记忆能力,优化推理和决策过程。
再之后在2024年2月,谷歌发布Gemini 1.5的时候,将上下文窗口的token数扩展到了百万级别,至此,“记忆”这个AI Agent发展必备中的第二个技术壁垒也完全被打破,对于开发者们来说不再是大问题。
- Chapter 2.3 工具使用
2023年底,前两个技术壁垒的突破,让大语言模型能充当虚拟世界的机器人这件事情变得更加可行,这时一些初创公司开始在硅谷生态圈活跃了起来。
Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 我知道的第一个让大语言模型去控制用户电脑的AI Agent应用公司是Simular,它应该是2023年12月底的时候发布了第一版Demo。大家看到AI agent的功能已经变得越来的强大了,从开始使用各种工具、接各种数据库、调用不同的应用,已经发展成可以操控电脑了。这一点让我觉得AI Agent的技术路线有了极大的飞跃。
2024年10月底,Claude发布了“computer use”功能,让AI Agent直接控制计算机的能力更进了一步,AI变得更像真正的、可以行动起来的智能助手。
Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 你可以看到开发者社区或初创公司其实走的比大厂要早很多。
AI圈备受关注的Andrew Ng(吴恩达)教授在2024年底关于AI Agent的演讲,彻底燃起了技术圈和非技术圈人们对于AI Agent的期待和热情,“2025年将成为AI Agent应用元年”的预测开始出现在各大媒体头版上。
虽然各种各样的AI Agent应用demo在全球开发者社群中早就屡见不鲜了,但在Manus出现之前,大部分AI Agent创业公司主要聚焦于企业级(ToB)应用,而非直接面向消费者(ToC)。所以难点在哪里呢?
Keith Zhai Tiny Fish联合创始人: 其实自从有互联网开始,网络上所有工具的设计方式,主要目标都是为了让人类使用,在这样的逻辑下,机器想完成准确、大面积的交互是很难的,这是在大语言模型出现前人类无法解决的问题。
在AI Agent之前行业没有形成范式共识,所以现在距离AI Agent实现通用化还差一步,那就是整个产业的支持。
- Chapter 2.4 一步之遥
我们前面提到的逻辑推理、上下文记忆、工具调用这些能力,在何朝阳看来,都属于“single agent”(单独智能体)的技术发展。
但要让AI Agent真正发展起来,做到主流化、规模化,那还需要实现multi-agent(多个智能体)之间的通信和互联,不同的Agent需要在不同设备、不同机房之间去做计算和联动,才能推动上亿级别用户机会的应用。这其中的难点在于通用的、标准化的协议适配范式。
何朝阳 TensorOpera AI ChainOpera AI联合创始人: 用大模型来驱动逻辑推理、上下文记忆、工具调用这些能力,所产生的AI agent,被大家定义为单独智能体,这是第一个发展阶段。 第二阶段的标志,就在于agent之间能实现互相通信。 第三阶段是让agent在不同的设备、不同的机房之间计算、联动,我觉得它是未来支持亿级别用户必须要有的架构,这是一个单点是无法做到的。
目前,我们仍然处于第三阶段的竞争和尝试中,这个阶段要解决的问题是,很多网站或者工具不支持AI agent的调用。
比如说很多网站和服务都会有“反机器人/anti-bot”的设置,我们也看到Manus执行任务时也经常因为访问不了一些数据而导致任务失败,所以在这个阶段中,我们需要打造一个通用协议来解决这个问题,才能支持不同AI agent之间的联动。
包括Anthropic等在内的很多公司正在做协议适配上的尝试。2024年11月初,Anthropic推出“模型上下文协议”(Model Context Protocol,简称MCP),引进了“应用如何为LLM提供上下文”的规范。
Anthropic将MCP协议称为“AI应用的USB-C端口”,支持将大模型直接连接到数据源。此前,企业和开发者要把不同的数据接入AI系统,都得单独开发对接方案,而MCP做的,就是提供一个 “通用” 协议来解决这个问题。
然而,MCP解决了第三代技术的问题,还有最后一代问题,是目前AI Agent应用大规模爆发的壁垒,那就是:真正统一的Agent-Agent之间Protocol通信标准与分布式计算,就像如今的安卓与iOS一样,我们也需要一个全球承认且通用的AI OS。
何朝阳 TensorOpera AI ChainOpera AI联合创始人: 举个例子,现在有两个独立的agent,如果要让这两个agent之间互相协作,就需要造第三个agent,这个agent来负责和前两个agent之间互相通信。 但agent之间的交互没有标准,可能一个协议是A,另一个协议是B,所以第三个agent就要把各自的协议给改一下,让两者之间能互相通信。
就好比10年、20 年前,有两种电脑,一个是IBM造的,另一个是Intel造的,它们之间底层的链路没有打通,就会导致软两个软件之间没有办法沟通,那时还没有TCP/IP的时候就比较麻烦。但到移动互联网的时候,比如说基站的通讯标准TTL、 TEL等等,如果所有设备软件都符合这个标准,大家是可以互相交流的。
所以今天单独智能体内部调用工具的问题,MCP已经一定程度地解决了,但两个agent之间如何通信,是更高维的通信协议。我对未来AI的想象就是,有一个非常复杂的分布式网络,有大量的服务,用户的诉求分发到整个网络里面,然后得到一个反馈。 我已经看到安卓的创始人(之一)出来亲自做AI OS 这件事情,我觉得安卓一定要被重构,可能这个系统你打开之后就是一个框,你可以问的一切问题,所有的信息或动作都会呈现在这个框的里。这个是我认为协议的核心。
2024年11月底,一个由安卓系统前高管们创业的公司,/dev/agents吸引了外界和媒体的注意,他们宣布获得了5600万美元的种子轮资金,联合创始人兼首席执行官David Singleton表示:“我们需要一个类似于安卓系统的人工智能时刻”。
他们想要打造的就和何朝阳的公司一样,希望开发一个通用操作系统,为AI Agent提供一个统一的平台。如果做到了,最后一个AI Agent的技术壁垒也就打通了,AI Agent就达到了第四阶段。
何朝阳 TensorOpera AI ChainOpera AI联合创始人: 我们想做一个真正的distributed multi-agent framework(分布式多代理框架),并且是hybrid as cloud(混合云)的架构,这样的话就需要agent之间的通信,并且不是一个单系统,它是公司之间的协作。 目前Router这种技术(如何确定分发意图、打通不同的agent的协议),我们现在是一个一个地去找合作伙伴适配,我们正慢慢地尝试去推广这种通用的协议。 但根据10年前的教训,这件事最终应该是几个大厂、或者然后国家队联合起来一起推广,有点像通信领域的 5G、6G标准。
总结一下何朝阳从整个AI Agent生态角度来看待的四代技术:
第一阶段是planner规划(也就是逻辑推理)、记忆memory、工具tools,让单个智能体在技术上的成熟。
第二阶段是通过planner的发展,在单机上实现多个智能体之间的通信。
第三极端是AI Agent在不同设备和机房之间能联动,这将推动上亿级别的用户承载量。
第四阶段是Agent-Agent之间的通信标准与分布式计算,也就是一个全新的AI OS。这也是我们现在正在突破的阶段。
何朝阳与很多AI从业者们都说,在黑夜中探索了这么久,现在天快亮了。
何朝阳 TensorOpera AI ChainOpera AI联合创始人: 如果是一个产品经理的视角,我觉得现在的阶段应该说是天亮了。
如今,随着AI Agent基建的进一步完善,包括底座大模型在内的各项技术进一步提升,以及科技巨头、初创企业、开发者生态中对协议和标准的进一步探索以及统一,我们似乎能感受到,AI Agent的爆发只有一步之遥。
Manus和类似的通用AI Agent公司只是给我们打了个样,之后的路还有很漫长。但这一步的距离其实还有挺多没有解决的问题。
Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 推理、记忆、工具调用这三个能力,只能让开发者做一个成熟的demo出来,但是如果想变成一个真正可用的产品,其实还需要解决两个技术瓶颈。 一个是可靠性,比如说至少有90~95%以上的情况能给用户正确且相关的信息。 二个是这个鲁棒性,怎么样让大模型或AI agent 能够具有鲁棒性,在各种边缘情况下都能够满足用户需求,是非常有挑战性的。
Keith Zhai Tiny Fish联合创始人: 对企业来说有很多问题需要考虑,比如第一步出错的概率是1%,第二步是2%,第三步可能是1%,但最糟糕的情况是,它会有一个叠加的错误效果,等它完成到第十步的时候,错误率就非常高了,很多企业办公流程达到了十几二十步,最后可能错误率会非常高。
Keith表示他们公司Tiny Fish扒了一下网上的数据,全美国有1.5万家接受了融资的初创企业在做AI agent方向的创业,这显示出AI agent这个大赛道的生态火热。
03 硅谷AI Agent公司版图
接下来由硅谷101的特约评论员王可倚来归类下,AI Agent公司的版图和大家在尝试的方向。
目前的AI Agent产品主要分为以下三类:
1. 以Manus为代表、直面用户的通用型agent;
2. Agent基础设施与框架层,也就是帮助搭建agent应用的地基和工具;
3. 面向特定行业的垂直化agent,比如编程、客服、销售、科研、商业分析与调研、甚至供应链管理等领域。
通用型agent前面已经讨论很多了,接下来重点讲讲后面两类。
- Chapter 3.1 Agent基础设施与框架层
说到架构,不少开发者小伙伴一定会首先想到LangChain。这个诞生几个月内就获得了超5.5万GitHub星标、和3千万美元融资的开源工具,迄今是agent开发者用来让大语言模型调用外部工具与数据库、拥有长程记忆、及完成多步骤工作流的首选工具包之一。
还有一些其他热门工具,比如Pinecone这类帮助agent高效检索外部知识的向量数据库,或让agent能更好处理私域数据的LlamaIndex等等,虽然并非仅针对agent,但也都是目前agent应用开发必不可少的“左膀右臂”。
同时各大云服务商也都争先恐后地推出了agent工具包,例如微软的Semantic Kernel、AWS的Bedrock Agents等,用来组合多种AI技能,主打对agent开发者体贴入微。
就像前面提到的,随着AI Agent基建和框架层的进一步探索和完善,这一块也是这两年VC风投资本们非常热门的投资方向,使得开发者们能用的工具和支持生态越来越成熟。
我们在过去几个月看到不同行业和场景中,不少创业公司们的Agent应用尝试。接下来我们聊聊具体的垂直赛道的明星公司们。
- Chapter 3.2 AI编程Agent
如今,AI agent应用被认为最早落地的是编程类的agent:它们不仅能自动补全代码,还能协助程序员们编写、调试,甚至自主部署软件。
GitHub Copilot在2025年2月推出的agent模式,想必码农小伙伴们都很熟悉。由初创公司推出的编程agent不仅多到让人眼花,还可以称得上AI届“造星工厂”。
号称首位“AI软件工程师”的Devin,背后是“生下来就在罗马”的新贵初创公司Cognition AI,成立不到半年,估值就跃升到20亿美金。Devin宣称能替代初级码农独立阅读技术文档、编写。
Devin的野心很宏大,每月高达500美金的订阅费也很美丽,但我身边的程序员朋友却吐槽: Devin写代码一般般,做调研倒还不错。所以现实情况是,定位于企业级用户的Devin在庞大冗杂的代码库、欠缺的技术文档和模糊不清的背景信息(context)这三座大山前,有点力不从心。
Cursor是另一个风头正劲的AI编程助手,诞生于四位MIT本科生于2022年创立的公司Anysphere。Cursor由于好用、速度快,对用户代码库理解能力出色,且成本远低于Devin,迅速成为了很多码农的首选,包括OpenAI、Shopify、Instacart的团队都有使用。
据业内消息,不到三岁的Anysphere已实现1.5亿美金年化收入,且正在洽谈估值可能高达百亿美金的新一轮融资。
其他还有很多编程类agent,比如拥有2000万开发者用户的Replit,旗下的AI Agent可以根据自然语言指令生成完整的网页端应用。还有正在以近30亿美金估值融资的Codeium,旗下的Windsurf已拿下包括戴尔在内的超一千家企业级用户;以及字节跳动针对中文开发者推出的编程助手Trae等等。
看来AI编程领域的agent赛马越来越精彩,不知各位码农朋友是欣喜还是担忧呢?
- Chapter 3.3 客服与销售Agent
客服与销售是两个劳动密集型岗位,但如今AI agent在这两个领域中凸显了效率优势,受到大量企业采纳的领域。
客服助理中表现突出的是Decagon。这家炙手可热的AI初创公司已融资超1亿美元,客户包括大家熟悉的Duolingo、Notion和Eventbrite等。
Decagon的AI客服能自动处理高达70%的客服工单,为企业节省每年数百万美元的人力开支。企业客户之一Bilt曾说:使用Decagon就像一夜之间多招聘了65名全职客服人员。
与此同时,销售领域则有快速崛起的AI独角兽Clay,它利用AI agent自动抓取和扩充目标客户数据,批量与潜在客户进行量身定制地互动,并帮销售人员处理大量工作中的脏活,从而成倍放大销售团队的生产力,目前已积累了十万名用户。
- Chapter 3.4 其他新兴应用场景
除了上面说到的几个领域之外,AI agent还在以下许多领域扩大影响。
1. 商业调研:作为商业数据分析领域的头部AI agent,Hebbia服务于全球资管规模前50名基金中的近1/3,以及多家大型律所、咨询公司、甚至美国空军。
2. 科研:学术界明星科研助手Elicit擅长自动生成论文部分内容并处理海量数据,目前全球已有超过200万科研人员使用;它极大提升了机器学习、制药与生物科技等领域的研究效率。
3. 供应链优化:被誉为美国最神秘的大数据公司Palantir近期在其人工智能平台(AIP)推出了agent功能,用于自动化管理物流与库存,已在60余家大型企业投入使用。
4. 医疗健康:美国最大的医疗信息公司Epic利用AI agent,将大量繁琐重复的行政工作自动化,比如患者预约与分流、基本沟通、手续查验与项目批准等,有效减轻了医护人员的负担。
- Chapter 3.5 AI Agent应用小结
随着AI agent技术的发展,为什么一些应用场景会更快地落地应用呢?我们发现目前取得成功的agent大多具备以下几个特征:
1. 任务定义明确且高度重复,比如客服、销售等场景,AI能显著提效且风险相对较低。
2. 工作流模块化且相对独立,比如经过良好切割的软件开发任务,agent可以不需要大量背景知识,在封闭、可控环境中运行。
3. 注重信息检索、分析与推理,大量自然语言交互,且不需借助复杂外部工具的场景。比如各种形式的调研,利于AI扬长避短。
4. 聚焦于协助而非完全取代人类,让企业能够逐步、稳妥地将AI整合到现有工作流中。
总得来说,业界普遍认为大模型和agentic AI的底层技术,已发展到了足以支撑大量2B领域商业化的阶段,而2C领域MVP(最小可行产品)的雏形也已经显现。
当然,想让AI agent承担更复杂的角色,在长期记忆、多模态、API整合、以及多agent协作等方面,还有很长的路要走。此外,企业也要做好内部流程、数据和文档标准化的工作,才能让AI agent更有用武之地,这或许会像10年前的企业上云,并非朝夕之功。
04 AI Agent的未来
在Manus引发的热潮和争议不久,OpenAI发布了新的Agent功能,推出专用于简化agent开发的API和工具,包括Responses API、内置工具和Agent SDK,帮助开发人员和企业构建有用且可靠的AI Agent。
所以Manus可能只是一道前菜,而精彩的部分才刚刚开始,Agentic这个词也注定会成为2025年AI赛道的关键词。
周炜 创世伙伴资本(CCV)创始主管合伙人 前KPCB中国基金主管合伙人: ToB端其实去年就有一些产品收入很高了,ToC端的话,我认为今年会是AI应用的元年。 我觉得一个通用的 AI agent想覆盖所有的应用场景是不可能的,所有在AGI达到之前,日常生活中应该需要多种AI agent互相配合,比如有买机票的agent,买保险的agent,买房的agent等等。 其实不用把agent想得太神秘,它就是相当于日常生活中,某个垂直领域的顾问或者是从业人员在帮你做这个事儿。所有在AI agent它应该也有很多个,针对不同的方向帮你解决不同的问题。
当然,我相信未来所有的agent会是大一统的状态,但道路还很漫长,所以我觉得没必要观点太终极。我觉得现在创业公司得先专注在垂直领域把它做到非常精细。 Perplexity这个产品就给了大家一个非常明确的方向,你看它从一开始就是专心在“研究”这一块做得非常的专业,我觉得就走这条路,足够成就一家很好的公司。
当然,一个新技术和新范式的产生少不了失败,这个失败在于对创业路径的失败,也在于对时机判断的失败,还有对于烧钱速度的失败等等。
在AI Agent这条道路上,我们已经看到一个初创明星公司的倒下:这就是Adept。
Adept总融资额增至4.15亿美金、公司B轮估值超过10亿美金晋升独角兽之后,却因为技术研发受阻而自己又研发基础模型所以烧钱太狠,不得不最终在2024年年中“卖身”给亚马逊。当时,这给所有想要从事AI Agent赛道的初创公司都枪响了警钟。
如果Adept能撑过黑夜、撑到如今的黎明时刻,说不定能比Manus拿出更好的产品、公司的结局会不会不一样呢?
无论如何,如今天快亮了,但新的一天才刚刚开始。长路慢慢,还早着呢。