新智元报道

编辑:桃子 好困

【新智元导读】短短几个月,国产黑马再次拿下新一轮超5亿元融资,引爆具身智能赛道。从「抓糖豆」到「全流程叠衣」技术飞跃,杭州创业沃土孕育的这颗新星,正以软硬全栈技术路线冲击万亿市场。

国产具身智能黑马,又双叒拿下新一轮融资!

刚刚,千寻智能正式官宣,完成Pre-A轮5.28亿元最新融资。

此次投资阵容堪称豪华,不仅有阿美风险投资旗下Prosperity7 Ventures(P7)领投,还有华发集团、浙江省科创母基金与上市公司浙江东方在杭州共同发起设立的善富科创子基金提供战略加持,以及招商局创投、广发信德、靖亚资本、东方富海、华控基金等知名玩家强势入局。同时,老股东达晨财智、柏睿资本、弘晖基金以及千乘资本在本轮持续加码。

据透露,最新融资将主要用于进一步研发、迭代VLA大模型,自研本体进化,以及全球一流团队的搭建。

近期,千寻智能发布了全新Spirit v1 VLA(视觉-语言-动作)模型抢先版,也成为国内首次攻克柔性物体长程操作难题的具身智能公司。

资本市场为何对千寻如此狂热追捧?这家AI新星究竟藏着怎样的杀手锏?

让我们揭开这轮融资背后的硬核逻辑。

全流程叠衣,堪比真人

回想去年11月,千寻机器人已经实现了多任务通用泛化能力,抓糖豆、倒水、插花都是自学精通。

如今,也就3个多月的时间,它便进化出全流程叠衣服的能力。

目前,除了UC伯克利大佬创办的Physical Intelligence之外,千寻还是全球唯二能够挑战全流程叠衣任务的公司。

两个机械臂准备就绪,面对身旁篮子中的一堆衣服,得等苦哈哈干完才能休息。

右边机械臂首先拿起一件红色衣服后,左边机械臂同时将衣服提起,第一步就是甩开正面平铺到桌面上。


接下来,把红色T恤一边叠起,再把另一边叠起,然后将其上下摆正,中间先对折一下,最后再折一下,一件衣服就完成了。


再来下一件,千寻机械臂叠蓝色T恤时,由于衣服边角不整齐,还会仔细地将两边铺平,才开始同上的步骤。


更让人意想不到的是,在叠完蓝色衣服后,它还会主动将其放在红色衣服上,叠成一摞。


绿色、咖色....两个机械臂吭哧吭哧,一口气全部叠完,整整齐齐地将所有衣物放在桌子的左上角。


此外,千寻机械臂还能将鸡蛋放置在鸡蛋盒,摞碗、按颜色分拣乐高、将锡纸准确插入支架等多种任务。


以上,还只是千寻preview版本的机器人,等将所有流程打通之后,就可以装上可移动的身体。

惊艳的是,升级后的千寻机器人,直接大秀空中接物,好似一个胜利者在招手。


可能你会觉得,叠衣服这么简单的事,对于机器人来说太简单了。事实上,并非如此。

历时3月,VLA难题大攻关

千寻机械臂成功完成从抓取、铺平、折叠,再到堆叠全流程叠衣服操作,这一跨越式进化背后,核心便在于Spirit v1。

Spirit v1是一个视觉-语言-动作的多模态模型,首次引入了动态场景感知全新的能力。

相较于此前抓糖豆、倒水等任务,这次的叠衣服的难度呈指数级上升。




左右滑动查看

而且,叠起平铺在桌面上的衣服,与从筐里拿起再叠衣服,情境完全是不一样的。

千寻首席科学家高阳在采访中表示,「对于外行人来说,这可能只是两件事,但对于机器人而言,思维难度天差地别」。

前者状态空间相对有限,场景重复性高,有时可以通过重复预设动作序列就可以完成。

而后者的情况则完全不同,状态空间至少是倒水的100倍,而且每一件衣服的褶皱、形状都是独一无二的。

对于缠绕在一起的衣服,再加上不同的褶皱,仅仅让机械臂重复相同的动作序列,更是远远不够。

叠衣服时,涉及到动态感知、复杂操作序列,需要机器人实时处理不可预测的场景,而抓糖豆只需要关注精细控制,倒水则依赖相对固定的轨迹。

就比如,这次机器人叠衣服全流程中加入了一个「甩」的动作,这其实是一个非常关键的技术亮点。

这个动作对高动态性能要求极高,因为机器人模型需要在时序上实现精确控制,确保机械臂能够在恰当的时机,以合适的速度和力度将衣服甩开并平铺。

这就要求VLA模型不仅能实时感知动态变化,还要快速调整动作策略。




左右滑动查看

从有限状态到无限可能的跨越,也正是此次Spirit v1的重大突破之处。


多源数据驱动,复杂任务进化密码

那么,机器人在面对乱成一团糟的衣服时,从哪里下手?有褶皱怎么办?没抓到怎么办?

这些边角案例,层出不穷。

千寻智能又是如何攻克这些难题,实现了叠衣服全流程操作?

要知道,具身智能发展的核心瓶颈之一在于数据稀缺。与语言模型都动辄万亿级语料相比,机器人领域的操作数据规模和质量,远远不足。

千寻智能的应对策略独具匠心,构建一个分层级数据利用体系,按照数据源和数据质量进行了排序,其中包括:

· 大规模、低成本的互联网视频数据

· 中等规模、高精度的遥控操作数据

· 高质量、稀缺的机器人试错数据

Spirit v1从互联网视频学习人类行为后,然后从遥操数据提炼精细控制,再通过强化学习实现试错优化。

再加上策略设计和连续性优化,能够确保Spirit v1每个环节顺畅衔接,最终完成全流程任务。

这种多源数据融合,恰恰让Spirit v1在通用性和泛化性上实现质变,恰恰也体现了机器人领域的Scaling Law。


高阳团队最新研究中,证实了数据Scaling Law在机器人中广泛存在

据透露,过去一年,千寻的数据规模增长了约5倍。这种数据量级的跃升,不仅推动了模型能力的快速迭代,也为Spirit v1在高动态场景中的表现奠定了基础。

针对全流程叠衣的任务,千寻机器人模型进行了连续三次测试,同时完成任务的能力已从过去至多5个扩展到50个,向国际领先的π0逐渐靠近。


而叠衣服不仅仅是技术展示,更是对现实中高难度任务的回应。

现实生活中,有很多人类希望机器人代劳的任务,比如叠被子、晾衣服、洗碗,目前具身智能挑战,就在于泛化能力不足。

高阳表示,「叠衣服的突破是迈向通用的重要一步,虽不能一步到位,但每一次提升都让我们更靠近家用和工业场景」。

更关键的是,千寻VLA模型还在内部快速迭代,在面对新任务时,远未达模型极限。

杭州创业黑马,获顶级资本青睐

千寻智能的技术迭代着实令人瞩目,一年拿下多轮融资,资本市场对其认可度可见一斑。

这里不免会有疑问,多家著名投资机构在评估千寻时,究竟看重了哪些优势?

高阳一语中的,「我们走了一条业界领先的端到端技术路线,AI+机器人硬件的全栈能力是核心壁垒」。

这种全栈能力,不仅体现在千寻在算法层面上的突破,还包括硬件设计与商业落地的深度耦合。

正是这种综合实力,让他们能够在众多初创企业中脱颖而出,进而打动资本市场挑剔的眼光。

更值得一提的是,千寻智能也诞生于杭州创业的沃土之中,汲取了腾飞的养分。

提起千寻和杭州的缘分,背后还藏有一份深厚的情怀。

千寻智能创始人兼CEO韩峰涛,也是浙大的校友,怀揣着对母校的拳拳之心,便选定杭州作为千寻的起航之地。

作为国内顶尖学府,浙大在机器人、AI、多模态感知等方面,积累了深厚的技术成果,培养了大批领军人才,在具身智能领域同样声名显赫。

同时,浙江省科创母基金与上市公司浙江东方在杭州共同发起设立的善富科创子基金,对千寻坚定战略加持,为其在具身智能领域的产业布局注入了强大动力。

目前,千寻的研发重心主要在北京,但杭州的创业氛围和政策便利,始终是其不可或缺的「起跑助推器」。


软硬全栈路线,商业化可期

放眼全球,具身智能的佼佼者多集中于伯克利系,而千寻联合创始人兼首席科学家高阳是「伯克利归国四子」之一。


高阳在预训练、监督学习、微调、强化学习领域取得了全球领先的成果,被誉为国内少有的全面型具身智能科学家。

更重要的是,他的技术路线短期内能快速落地并积累数据,长期上限极高,能端到端泛化与多本体数据融合。

正因此,千寻掌握了世界级多源数据融合学习能力与具身大模型的实力。在软件层面上,才有了VLA模型——Spirit v1。

显然,具身智能只有大脑和小脑是不够的,必须有载体才能实现商业闭环。

而在硬件端,千寻同样不遑多让。

这家公司汇聚了全球一流的智能硬件团队,工业级基因为其奠定了定义具身智能硬件新标准的底气。

高阳在采访中称,「软硬协同是具身智能的核心。算法延迟和硬件响应若不能无缝衔接,机器人可能无法精准完成0.1秒内的动作指令」。

千寻通过底层架构设计,将软件需求与硬件性能深度耦合,铸就了新的护城河。

尽管这一技术尚未成为行业标准,但其内部体系已有效支撑快速迭代与产品稳定性的平衡。

有了站得住脚的产品之后,下一步就是商业化了。

机器人赛道与自动驾驶类似,需要的是长期的投入,而商业化能力是关键支撑。

恰恰,千寻创始团队是国内同类公司中,商业化能力最强的一家。


另一位联创郑灵茵曾带领珞石机器人海外事业部从0到1,在2023年海外销售占比15%,为千寻积累了宝贵的经验。

未来,千寻计划延续这一优势,优先攻占海外市场,因为其人工成本高,企业付费意愿更强。

技术硬核、硬件领先、商业化可期,这套王炸组合,让资本根本无法拒绝。


产学研融合,打造具身智能人才高地

在具身智能赛道上,千寻智能正在以「顶尖人才驱动颠覆性创新」为战略,加速构建产学研融合的人才体系。

目前,它已联手清华、北大、浙大、中科院等高校及科研机构,制定了毕业生定向培养计划。

人才选拔上,则重点吸纳AI和机器人领域的优秀博士人才,为研发团队注入源源不断的科研动能。

为了锻造全球竞争力的人才引擎,千寻还创新性地推行了「AI+机器人双导师制」。

每位团队成员由AI和机器人领域的顶尖专家联合指导,确保研发方向既前沿又接地气。

同时,通过复合型项目实战,团队在具身大模型训练、硬件迭代、场景落地等全流程中快速成长,并提供广阔的发展空间和资源支持。

千寻智能创始人兼CEO韩峰涛表示,「人才密度决定技术高度,我们吸引全球顶尖人才,并让其在千寻发挥乘数效应——即1+1>2的创新合力」。

从高校合作到实践培养,千寻将产学研融合,不仅为行业输送创新火种,也在为自身发展积蓄了磅礴力量。

具身智能,AI下一个万亿浪潮

前段时间刚结束的GTC 2025大会上,老黄掷地有声地宣布,「通用机器人的时代已经开启」。

没错,AI的下一波浪潮,就是具身智能。

过去几个月,我们见证了具身智能领域,国内外迎来技术密集爆发期。

抛弃OpenAI之后,Figure在上个月亮出首个自研VLA模型——Helix,也是一个端到端的通用模型,能够让机器人学习、语言理解、感知控制。


谷歌基于Gemini 2.0打造了两款通用具身智能模型Gemini Robotics和Gemini Robotics-ER,在推理能力加持下,不仅能折纸、打包饭盒,还能摘葡萄、组合字母.....


除此之外,英伟达开源全球首个可定制的通用基础模型GROOT N1;波士顿动力Atlas翻跟头炫技;李飞飞团队开源BEHAVIOR机器人套件,还有国内智元启元GO-1大模型、宇树G1侧翻等等。


全球科研机构和公司,就此展开了丰富的研究和商业化探索。

资本、人才、公司纷纷涌入具身智能,恰恰说明了,这一赛道蕴藏着万亿级市场价值。

融合AI、机器人、多模态感知等前沿技术的具身智能,技术路线尚未收敛,灵巧操作、感知决策、人机交互等领域仍充满突破的可能。

参照谷歌DeepMind对AGI的L1-L5分级标准,具身智能目前行业能力在L0到L1之间,短期内有希望实现L1,即基础任务的初步自动化。


论文地址:https://arxiv.org/pdf/2311.02462

再加上,具身智能市场前景更加令人振奋。

从工业制造到服务业,从医疗到教育,人形机器人作为具身智能的重要载体,万亿市场潜力无限。

据预测,中国具身智能市场规模将在未来几年内快速增长。


自研,还是共脑?

在谈及近期国内外具身智能成果时,高阳给出了独到的见解——

Helix模型亮点在于将高层识别和底层快速运动解耦。它相当于一个判断系统,模型规模可以继续scaling,动作执行也更顺滑,是一个不错的思路。

至于谷歌Gemini Robotics更像是π0的优化版(毕竟π0团队是从谷歌分拆出来的),泛化性有所提升,但在任务排序上并无本质突破。

其推理能力的实现,并非来自于完全统一的推理模型。Gemini Robotics仍是分层端到端设计,是Gemini Robotics-ER和Robotics的结合体。

几乎每家具身智能公司都在搞自研模型,难道机器人就没有一个共用的大脑(基座模型)吗?

在高阳看来,从技术上分析,若是GPT-4.5开源,大家肯定会选用更好的模型。但在现实商业化中,公司出于竞争的需求会自研大脑。

「具身智能可能会走类似的路径:初期各自为战,最终留下一个最优的大脑」。

如今,面对AI下一个万亿浪潮,千寻智能信心满满。

近两年来,AI在虚拟世界,即语言、图像、声音、视频等领域突飞猛进,大模型的革命必然从虚拟世界走向物理世界。


我们皆生活在物理世界中,具身智能可以创造出比LLM更大的市场机会。这是因为机器人输出能力更强,所以具身智能未来将是一个比计算机更大的市场。

而现在,硬件已具备可用性,只要模型能力达到可用性阈值,千寻机器人将会解锁无数个应用场景。

未来十年,从家务到工业,他们希望能够让10%的人拥有自己的机器人。

从5.28亿融资到全球布局,千寻团队用硬实力证明了中国企业在具身智能赛道的无限可能。

凭借领先的软硬全栈技术和强大的商业化落地能力,这家具身智能黑马,正加速奔向万亿级市场的核心舞台。

参考资料:

https://www.youtube.com/watch?v=bemrcQcHmMk

https://www.physicalintelligence.company/blog/pi0

ad1 webp
ad2 webp
ad1 webp
ad2 webp