自从上周初创公司 Monica 发布通用 AI Agent —— Manus 以来,它就像野火一样在网络上迅速蔓延传播。
不仅在中国如此,它在全球范围内同样引起了广泛关注,其中不乏 Twitter 联合创始人 Jack Dorsey 和 Hugging Face 的产品负责人 Victor Mustar 等在内的科技界知名人士都对其表现赞不绝口,还有人甚至将 Manus 视为“第二个 DeepSeek”。
Manus 声称是全球首款真正意义上的通用 AI Agent,其整合了多个 AI 模型(如Anthropic 的 Claude 3.5 Sonnet 及阿里巴巴开源的 Qwen 的微调版本)以及多种独立运行的智能体,
Manus 不仅能生成和提供想法,更能独立思考并采取行动,将想法付诸实践来真正解决问题,具备从规划到执行全流程自主完成任务的能力,比如撰写报告、制作表格等。而这,使它区别于基于单一大型语言模型家族设计主要用于对话交互的 AI 聊天机器人。
(来源:MIT Technology Review)
尽管备受关注,但实际上真正使用过 Manus 的人却很少。
截至目前,在“等待名单”上只有不到 1% 的用户收到了邀请码(具体等待人数尚不清楚,但仅从兴趣度来看,Manus 的 Discord 频道就有超过 186,000 名粉丝)。
如今,《麻省理工科技评论》获得了访问 Manus 的机会。在我对其进行深度体验后,感觉就像是在与一位高度智能且高效的人类实习生合作。尽管偶尔会误解任务要求、做出错误假设,或是为了加快进度而“偷工减料”,但它能够清晰地解释自己的思考过程,具有很强的适应性,并在接受详细指导或反馈后显著提高性能。
总结来说:它是有前景的,但并非完美无缺。
与该公司早先发布的面向全球用户的 AI 助手 Monica 类似,Manus 默认设置也是英文界面,设计比较简洁明了。
初次使用 Manus,用户首先需要输入有效的邀请码,然后系统会引导用户进入一个与 ChatGPT 或 DeepSeek 相似的登陆页面,左侧显示之前的会话,中间主体部分是聊天输入框。登陆页面还展示了公司精选的一些示例任务,从商业策略开发,到互动学习,再到定制音频冥想课程等。
(来源:MIT Technology Review)
与其他基于推理的 AI 工具(如 ChatGPT DeepResearch)一样,Manus 能够将任务分解为多个步骤,并自主浏览网络以获取完成任务所需的信息。
与众不同的是“Manus's Computer”窗口,它不仅可以让用户观察智能体正在做什么,还可以在任何时候进行干预。
为了测试它的功能,我给 Manus 布置了三项任务:1、整理一份报道中国科技领域的知名记者名单;2、搜索纽约市的两居室房源;3、提名《麻省理工科技评论》每年评选的“35 岁以下科技创新 35 人”候选人。
以下是 Manus 的完成情况。
任务 1:Manus 给出的第一份记者名单只有区区五个名字,并在下面列出了五个“荣誉提名”。我注意到,它对某些记者的代表作进行了标注,但对其他人却没有这样做。当我询问原因时,Manus 的回答出奇地简单:它偷懒了。
“由于试图加快整理过程,时间限制导致部分工作做得不够细致。”Manus 告诉我。在我坚持要求保持一致性和完整性之后,Manus 提供了一份包含 30 名记者的详尽名单,注明了他们目前的工作单位和代表作。(我很高兴看到自己和许多敬重的同行都在名单上。)
令我印象深刻的是,我可以像指导人类实习生或助手一样提出修改建议,而 Manus 也能够恰当地回应。虽然最初它忽略了某些记者雇主变更的信息,但在我的要求下重新检查后,它很快就进行了修正;另外一个不错的功能是,输出结果可以下载为 Word 或 Excel 文件,便于编辑或分享。
然而,当尝试访问付费新闻文章时,Manus 遇到了麻烦,频繁遇到验证码障碍。由于我能够一步步地进行跟进,所以可以轻松接手并帮助完成这些任务,毕竟有很多媒体网站以可疑活动为由阻止 Manus 访问。我认为在这方面有很大的改进空间,如果未来的 Manus 版本能在遇到这类限制时主动寻求帮助将会进一步提高效率。
任务 2:对于房源搜索任务,我给出了一系列限制条件,包括预算、宽敞的厨房、户外空间、曼哈顿市中心的可达性,以及距离主要火车站七分钟步行范围内等要求。
Manus 最初对模糊的要求,比如“某种形式的户外空间”理解过于字面化,完全排除了没有私人露台或阳台的房源。不过,在我进一步指导和澄清后,它生成了一个更广泛且有用的清单,分层次提出建议,并提供了简洁的要点概括。
它最终生成的结果看起来就像出自 Wirecutter(知名产品评测网站),包含诸如“最佳综合选择”、“最佳性价比”和“豪华选项”等副标题。这个任务(包括来回沟通)花费不到半小时,少于整理记者名单所需的一个多小时,这或许是由于房源信息在网上更加公开和结构化。
任务 3:这也是最具挑战性的任务,我让 Manus 为今年的“35 岁以下科技创新 35 人”评选提名 50 人。出于对 Manus 的表现十分好奇,我很想看看它能做到什么程度。要知道,这项任务量巨大,我们通常每年会收到数百份报名申请。
来到 Manus 这里,它首先将任务分解成了几个步骤,包括回顾以往的名单以了解选拔标准、制定搜索策略以识别候选人、收集姓名并确保候选人的多样性等。
制定搜索策略是整个过程最耗时的部分,虽然 Manus 没有明确说明其方法,但从“Manus's Computer”窗口可以看到它迅速浏览了大量著名研究型大学网站、科技奖项公告以及新闻。然而,就像在执行任务 1 时那样,当 Manus 尝试访问学术论文和付费内容时再次遇到了障碍。
网络搜索长达三个多小时,在此期间 Manus 多次询问我是否可以缩小搜索范围,但它只提供了三名具有完整背景资料的候选人。在我要求提供完整的 50 人名单时,它最终生成了一份名单,但某些学术机构和领域的局域代表性非常高,似乎反映出它的研究过程并不全面。
在我指出这个问题并要求它从中国寻找五位候选人后,它编制了一份可靠的五位候选人名单,不过这些候选人似乎都偏向于在中国媒体上备受关注的人物。最终,由于系统警告继续输入过多文本可能会降低 Manus 的性能,我不得不选择放弃。
我的观点:总体而言,我发现 Manus 是一款非常直观的工具,即便是没有编程背景的用户也能轻松上手使用。在三项任务中,它有两项任务提供的结果优于 ChatGPT DeepResearch,尽管完成这些任务所需的时间更长。
Manus 似乎比较适合那些需要广泛使用开放互联网进行研究但范围相对有限的分析任务。换句话说,它最适用于处理类似于熟练人类实习生在一天工作时间内能够完成的工作。
然而,并非一切都非常顺利。Manus 还经常遭遇崩溃和系统不稳定的问题,在处理大量文本时可能会遇到卡顿。比如,当我尝试启动新请求时,“由于当前服务负载较高,无法创建任务,请几分钟后重试”这一消息在我屏幕上闪现了好几次,偶尔“Manus's Computer”也会在一个页面上长时间冻结。
据 Manus 首席科学家季逸超(Peak Ji)所说,“它的故障率高于 ChatGPT DeepResearch,团队目前正在着手解决这个问题。”
值得注意的是,有媒体报道,Manus 每项任务的成本约为 2 美元,仅为 DeepResearch 成本的十分之一。如果 Manus 团队加强其服务器基础设施,我认为该工具或将成为个人用户的首选,尤其是白领专业人士、独立开发者和小型团队。
最后,我认为 Manus 的工作过程相对透明且具有协作性,这一点非常有价值。它在执行过程中会主动提问,并将关键指令作为“知识”存储在其记忆中以备将来使用,从而提供了一个“易于定制的智能体”体验。此外,每次会话都可以回放和分享,这也很方便。
我预计我会在日常生活以及工作中继续使用 Manus 来完成各种任务。虽然我不确定将其与 DeepSeek 进行比较是否完全恰当,但这进一步证明了中国的 AI 公司并不是在追随西方同行的脚步:不仅在基础模型上进行创新,还在以自己的方式积极推动自主 AI 智能体的应用和发展。
https://www.technologyreview.com/2025/03/11/1113133/manus-ai-review/