机器人前瞻(公众号:robot_pro)
编译 江宇
编辑 漠影
机器人前瞻4月25日消息,具身智能初创公司Physical Intelligence于4月22日重磅发布了VLA(视觉-语言-动作)模型π0.5。这款专为机器人控制设计的模型,能够在全新环境中执行复杂家务任务,比如清洁厨房、整理卧室,展示了领先的开放世界泛化能力。
更让人眼前一亮的是,π0.5成为首个通过端到端学习,在陌生家庭中完成长时段、复杂家务任务的机器人模型,这标志着机器人技术从实验室走向现实世界的突破。
Physical Intelligence 是一家成立于2024年的初创公司,专注于为机器人开发通用人工智能模型,已在短时间内完成两轮融资。2024年3月,公司获得7000万美元种子轮融资,估值约4亿美元;同年11月,又完成4亿美元的A轮融资,估值飙升至24亿美元,总融资额达4.7亿美元。投资方包括亚马逊执行主席杰夫·贝佐斯、OpenAI、Thrive Capital、Lux Capital以及红杉资本等知名机构。
论文链接:https://arxiv.org/abs/2504.16054
一、走进陌生新家:π0.5的泛化能力有多强?
机器人技术近年来突飞猛进,但要让它们真正走出实验室,最大的挑战在于“泛化”:如何在全新的环境中,面对未知的物体,依然能完成任务?
以家庭清洁为例,每个家庭的布局、物品摆放都不尽相同。传统机器人可能在实验室里表现完美,但到了新环境就会“懵圈”。而搭载π0.5的机器人却能在多个层面实现泛化:
- 基础操作:它能通过手柄抓取从未见过的勺子,或握住盘子的边缘,即使这些餐具混杂在一堆脏碗盘中。
- 语义理解:它能明白任务的“潜台词”,比如知道衣物该放进洗衣篮而不是床上,或者选择合适的工具清理液体污渍。
实验中,π0.5在完全陌生的家庭环境中成功完成了多种任务。这种能力不仅依赖于物理操作技巧,还需要对环境的“常识”理解,涵盖从物体识别到语义推理的多层次认知。
值得一提的是,π0.5的目标并不是追求新技能或极高的灵活性,而是强调在训练数据未覆盖的场景中实现功能迁移,比如在不同家庭的厨房或卧室中依然游刃有余。
由于机器人系统的数据多样性有限,这种开放世界的泛化能力显得尤为关键,而π0.5的表现无疑推动了通用物理智能的发展。
二、用“杂糅”数据喂出来的聪明机器人
π0.5之所以能如此“聪明”,秘诀在于它的训练方法——异构数据协同训练(co-training)。简单来说,就是用各种不同来源的数据“喂”模型,让它既能干活,又能“懂事”。
这种训练的核心在于多样化的数据源。π0.5不仅学会了如何抓取物体、移动手臂,还能理解任务的语义背景(比如清理厨房时该拿什么、放哪儿),分解任务步骤(整理床铺时先拿枕头再铺床单),甚至从其他机器人的经验中“偷师”,比如借鉴单臂机器人或固定底座机器人在简单环境中的动作模式。
为了让π0.5熟练掌握这些本领,Physical Intelligence团队为它量身打造了一套“定制课程”,包括以下三大类:
- 多模态任务:比如给图片写描述、回答视觉问题、识别物体,这些任务让模型学会理解图像和语言。
- 机器人操作数据:包括实际的动作演示,以及任务分解后的关键步骤识别,比如看到一张乱糟糟的床,模型能判断“接下来该拿起枕头”这一步骤。
- 人类语言指导:通过人类用自然语言一步步教机器人,比如“先捡起杯子,再放进水槽”。
为了搞清楚每种数据的作用,Physical Intelligence团队设计了消融实验(ablation studies),通过去掉部分数据,训练不同版本的π0.5,并用柱状图(见下图)展示了结果:
- 完整版π0.5(黄色柱):包含所有数据,包括移动机械臂数据(MM)、非移动机器人数据(ME)、实验室跨平台数据(CE)和网页数据(WD)。
- 无WD(深绿色柱):去掉网页数据,失去问答、描述等语义知识;
- 无CE(绿色柱):去掉实验室跨平台数据;
- 无ME(深青色柱):去掉非移动机器人数据;
- 无ME和CE(浅绿色柱):只剩移动机械臂数据(约400小时)。
▲π0.5模型消融实验结果对比
实验在全新环境中展开,任务分为两类:常规任务,例如将餐具放进水槽或清理卧室地板上的衣物;以及挑战任务,也就是分布外测试,要求根据语言指令将未见过的物体放进抽屉。
评估时采用了两个指标:任务成功率,即完成任务的比例;以及语言遵循率,即机器人是否能准确理解并执行指令。
结果显示,完整版π0.5在所有指标上表现最佳,证明每种数据的不可或缺性。
去掉网页数据(WD)后,模型在新物体识别和指令理解上的表现显著下降,尤其在挑战任务中影响最大;而移除其他机器人数据(ME 和 CE)则导致模型在新环境中的操作能力大幅降低,凸显了这些数据对整体性能的关键作用。
为了进一步验证泛化能力,Physical Intelligence团队还做了环境规模实验,将训练环境数量由3个增加到104个。实验还引入了一个基线模型,该模型直接在测试环境数据上进行训练(以绿色水平线表示),作为泛化挑战被移除时的性能参考。
结果显示,当训练环境达到100个时,π0.5的表现已经接近直接用测试环境数据训练的“作弊”模型,说明它能用相对少的数据实现强大的泛化。
▲π0.5模型环境扩展实验结果
三、“想”完再干:π0.5的双层大脑
π0.5的另一个亮点在于它的“双层大脑”设计。基于前代π0模型,π0.5通过协同训练既能“思考”又能“行动”,用同一个模型完成高层次决策和低层次操作。
运行时,π0.5会先“想”,输出一个文本形式的高层次指令,例如“拿起盘子”,然后再“干”,根据这一指令生成 1 秒 50 步的动作块,控制机器人手臂的关节运动。
这种“先想后干”的方式类似人类的“思维链”(chain-of-thought),灵感来自Physical Intelligence团队近期开发的Hi Robot系统。
模型内部包含两个解码路径:离散解码负责“思考”并生成高层次指令,而连续解码通过流匹配技术生成低层次动作指令。
▲模型首先产生用语言表达的高级动作,本质上是“告诉自己”应该采取什么步骤来完成任务,然后使用其流量匹配动作专家选择电机命令。
该团队将 π0.5放入全新家庭进行实际测试,要求它完成复杂任务,比如收起餐具、整理床铺、清理地板。这些任务不仅需要操作技巧,例如用海绵擦污渍,还得“懂事”——明白任务的语义,把每一步拆解后与正确物体交互。
更有趣的是,π0.5还能应对干扰:机器人擦污渍时,有人制造污渍,机器人能重新调整,以及在摆放碗时,被人干扰,机器人也能继续完成任务。
此外,π0.5能听懂不同级别的指令,从高层次的“把盘子放进水槽”到具体的“拿那个银色登山扣”或“捡黄色圆刷”。
▲拿取银色的登山扣
▲拿取黄色圆刷
当然,它也有失误的时候。比如在一次实验中,指令是“把物品放进抽屉”,它却打开了烤箱,闹了个笑话。
▲指示为将物品置于抽屉,却打开烤箱
结语:家庭服务机器人离我们还有多远?
尽管π0.5仍存在不足,但通过让机器人从多样化的知识来源中学习,其训练方法让我们离“灵活的物理智能”更近了一步。
未来还有许多挑战待解决:机器人可以利用自身经验,在更少人类指导下自我提升;在陌生环境中,它们可以主动求助或请求建议;同时,知识迁移技术和数据多样性也需进一步改进,以推动机器人技术的更广泛应用。
Physical Intelligence还计划开源π0.5的代码和数据集,邀请全球机器人研究社区一起探索。或许不久的将来,家庭服务机器人就能真正走进千家万户!