机器人是否可以像人类一样灵活操作陌生物体?

要想做到这一点,关键在于赋予其“举一反三”的能力:当人类看到新物品时,能根据外形或功能,从历史记忆或与物理世界的交互过程中获得先验知识(比如用开瓶经验开新饮料)。

这种能力源于人类能够理解物体之间的相似性,并把对熟悉物体的操作经验用到新物体上。但是,机器人缺乏这样的经验,而让机器人在不熟悉的场景中操作物体,是实现智能机器人的关键一步。

清华大学团队提出了一种名为 Robo-ABC 的方法,使机器人具备跨类别的泛化能力。通过该方法,机器人可以在没有任何额外训练或人工标注的情况下,直接操作它从未见过的物体。

实验结果显示,Robo-ABC 在识别操作方式的准确性上比现有方法提高了 31.6%。在实际的抓取任务中,Robo-ABC 的成功率达到了 85.7%,证明了它在真实场景中的有效性。

图丨许华哲(来源:许华哲)



日前,相关论文以《Robo-ABC:通过语义对应实现机器人操作的超越类别的可供性泛化》(Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation)为题发表在arXiv[1],并已经被欧洲计算机视觉会议(ECCV 2025,European Conferenceon Computer Vision)收录。

清华大学博士生鞠沅辰是第一作者,助理教授许华哲担任通讯作者。

图丨相关论文(来源:ECCV)



以往的泛化方法往往依赖于训练数据的相似性,只能在与训练数据相同的场景中实现泛化。该研究的创新之处在于从人类能力的角度出发去思考泛化问题,而不是从传统的机器学习能力出发,从而为实现更高级别的泛化能力提供了新的思路和方向。

该研究的初衷是赋予机器人类似人类的跨类别泛化能力,使机器人能够从不同类别的物体中学习并应用知识,从而实现更广泛的应用。

(来源:ECCV)



在该研究中,机器人通过“观看”海量人类操作视频,从中提取有用的操作信息。当机器人遇到陌生物体时,系统会从预先提取的“操作记忆”中快速匹配视觉/功能相似的参考物品。

接着,通过预训练 AI 模型将操作关键点(如握持位置)智能映射到新物体上,整个过程无需人工标注或额外训练,机器人能够以零样本(zero-shot)的方式直接操作从未见过的物体。

虽然这听起来颇具挑战性,但研究发现,用预训练的模型可以帮助机器人完成这一任务,即使物体的类别完全不同。

在该过程中,研究人员采用了扩散特征(DIFT,diffusion features)等技术手段。DIFT 特征本身具有一定的语义对应关系,但并不是直接拿来就能用的。该课题组对其进行了额外的处理,使其对旋转、平移等变化更加鲁棒,从而更好地适应不同场景下的需求。

(来源:ECCV)



VRB(Visual Reasoning Benchmark)是一个从大规模人类数据集中学习的端到端模型,其目标是理解物体的可用性,即物体可以被如何使用或操作。研究人员对比了 VRB 模型,特别是它在处理物体可用性方面的表现。

结果显示,Robo-ABC 在效果上显著优于 VRB。“这是因为 Robo-ABC 能够实现跨类别之间的相互迁移,从而更好地理解物体的可用性。”许华哲说。

例如,如果了解如何握住话筒,那么也能够推断出如何握住放大镜,尽管二者是不同的物体,但它们在形状和使用方式上有许多相似之处。这种能力正是该模型的核心优势。

相比之下,VRB 是纯数据驱动的模型。如果训练集中没有包含某个特定的物体(比如放大镜),那么模型在面对这个未见过的物体时可能会失效。

许华哲解释说道:“我们的模型之所以不会失效,是因为使用了 DIFT。它是在海量数据集上进行预训练得到的,能够捕捉到物体之间的对应关系,从而在面对未见过的物体时也能做出合理的推断。”

在后续的项目中,研究人员还将这种二维映射关系扩展到了三维空间,实现了一种称为“功能性映射”的技术。通过这种映射,可以将一个三维物体的所有位置映射到另一个三维物体的所有位置。

许华哲举例说道:“例如,可以将长豆角映射到短豆角上,或者将西瓜映射到南瓜上。这种技术不仅提升了模型的泛化能力,还使其能够更好地处理形状各异的物体。”

该技术与仅能应对标准工业品(如饮料瓶)的传统模型相比,实现了从“识别已知”到“学习并理解未知”的跨越,有望助力机器人在处理异形食材、修剪树枝等真实场景中展现出独特优势。

接下来,该团队将从两个方向继续推进这项研究:一方面,进一步扩大物体识别的范围,并提升其映射精度;另一方面,将该技术与端到端的方式相结合,以验证其在复杂任务中具备提升机器人性能和良好泛化能力的可能性。

参考资料:

1.Ju, Y., Hu, K., Zhang, G., Zhang, G., Jiang, M., Xu, H. (2025). Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation. In: Leonardis, A., Ricci, E., Roth, S., Russakovsky, O., Sattler, T., Varol, G. (eds) Computer Vision – ECCV 2024. ECCV 2024. Lecture Notes in Computer Science, vol 15099. Springer, Cham. https://doi.org/10.1007/978-3-031-72940-9_13

运营/排版:何晨龙

ad1 webp
ad2 webp
ad1 webp
ad2 webp