2024 年被视作具身智能发展“元年”,全球科技界纷纷抢滩布局。自艾伦·图灵 1950 年提出相关概念,经多年沉淀,在大模型与生成式 AI 助力下,具身智能从理论迈向应用,成为当前全球人工智能领域的前沿热点和新浪潮。

国际上,科技圈大佬马斯克、黄仁勋等积极推动,谷歌发布 RT 系列机器人模型,RT - H 任务成功率显著提升;英伟达成立 GEAR 实验室,推出 Project GR00T 及 Jetson Thor 平台;微软、OpenAI 也投身浪潮。特斯拉擎天柱机器人更是大显身手,从日常琐事到工业应用,潜力无限。

国内同样呈喷薄之势,2024 年上半年超 50 家具身智能概念创业公司涌现,融资活跃。其中,如智元机器人、星尘智能、逐际动力等在人形机器人研发成果斐然。

具身智能之所以备受瞩目,在于其拥有更强认知与决策力,能在复杂环境自如交互、执行任务,在不远的将来,具身智能产品能够像电脑、手机、汽车等工具一样,大规模进入到人们日常生活中,大幅延展人类的感知、认知、行为范围。更进一步,具身智能能够突破人类的限制,作为人类探索世界新的方式,帮助人类更深刻的理解世界。

由此,具身智能将数字世界与物理世界相连,未来必将深刻重塑各行各业,开启一个充满无限可能的全新智能时代。据36氪研究院测算,我国具身智能的市场规模已从2018年的2923亿元增长至2023年的7487亿元,年复合增长率高达20.7%,并且有望在2026年突破万亿。

数据瓶颈:制约具身智能发展的枷锁

然而,在这一片欣欣向荣的背后,具身智能行业的发展之路却并非坦途。当前,行业面临着诸多棘手的痛点,尤其是在数据训练与仿真这一关键环节,存在着严重的不足。

在具身智能领域,当前主流的较为成熟的实现方案停留在模仿学习,而在研的技术路径包括强化学习、VLA、大脑+小脑双层架构、通用具身智能基石模型等。而无论采用哪种技术路径,行业共同面对的问题却是相同的:1、缺少高质量的训练数据;2、缺少高真实性的闭环仿真器。

由于具身智能算法的特殊性,其对于训练数据的要求非常高。以Manipulation场景来说,可用来作为训练的数据需求一般为:1、需要基于特定的视角;2、需要更高的数据维度(空间视频、力反馈数据);3、对于特定task的多样化视频。这使得海量的互联网数据几乎完全无法使用,只能使用价格昂贵的遥操采集设备,昂贵的人力成本,在真实世界中进行数据采集。

另外具身智能应用场景的缘故,其对闭环仿真也有特殊要求。以Manipulation场景来说,1、对于仿真器对于多物体之间,基于物理特性的交互特征的仿真真实性要求极高。而“物理特性”真实性是当前仿真器实现上的难点。2、由于Manipulation操作发生在距离较近距离的物体上,因此仿真需要对近处物体有非常准确和足够真实性的展现。而当前大家常用的仿真器往往在Physics和Appearance上都存在程度不一的sim2real gap。导致在具体使用时,或者需要花费大量的成本进行仿真与现实的标定,或者得到不置信的仿真结论。

因此,建立仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验方式,确保了通过模拟潜在的危险场景的安全性,为测试在各种环境中提供了可扩展性,快速原型设计的能力,对更广泛的研究社区的可访问性,精确研究的受控环境,用于训练和评估的数据生成,以及用于算法比较的标准基准。

世界模型:解决数据瓶颈问题的全新思路

对于制约具身智能发展的数据瓶颈,2024 年,AI 教母李飞飞发布的空间智能及相关大世界模型,犹如一颗重磅炸弹,在自动驾驶及更广泛的具身智能应用场景中展现出了巨大的发展与应用潜力,为解决数据瓶颈问题提供了全新的思路。

与生成式 AI 工具生成的 2D 内容不同,李飞飞的世界模型开启了从数字世界向物理世界的跨越征程,实现了从一维数字智能向三维空间智能的重大转变。按照李飞飞的阐释,空间智能意味着 AI 能够在三维空间与时间维度中,以立体的视角进行感知、推理以及行动,并切实地与现实世界产生互动交流。

因此,基于空间智能技术,天然可以构成高质量的通用仿真器。更进一步,基于空间智能对于空间的理解和推理,可以大规模的生成高质量的遥操数据,这样就从根本上的解决了数据瓶颈。禁锢在算法之上的两大瓶颈得以接触,具身智能将会大大加速进化。

世界模型在具身智能的潜在应用范围极为广泛。以自动驾驶为例,世界模型可以实时精准地把握道路状况,并对其变化趋势进行精确预测,重点聚焦于对环境的瞬时感知以及复杂变化趋势的预估判断。

在人形机器人领域,世界模型对于导航、物体识别检测以及任务规划等关键任务起着不可或缺的作用,可以精准地解析外部动态环境,并构建具有交互性和实体体验感的环境场景。而在虚拟社会系统模拟方面,世界模型可以敏锐地捕捉并预测更为抽象的行为动态,诸如社会交往互动以及人类决策制定等过程。

极佳科技:打造新一代4D世界模型

由于地缘政治影响,国内率先布局世界模型和空间智能方向的先锋企业,可对标李飞飞World Labs,进行国产替代的的极佳科技引发广大关注度。该公司聚焦于视频生成与 4D 世界模型在空间智能领域的探索与拓展,并已在商业层面均收获显著成果,收获了知名度与口碑。

极佳基于空间智能技术,打造了新一代4D世界模型产品。具体来说,4D世界模型能够将低质量的数据(图片、单目视频……),基于约束条件(文本prompt、图片、结构化信息),可控的生成高质量“可交互的4D场景”。基于“可交互的4D场景”,既可以经过简单变换、泛化,转换为海量的高质量训练数据(质量等价于遥操数据)。同时,“可交互的4D场景”天然也是高精度的仿真环境,可以作为强化学习、模仿学习等多种算法训练/评测所使用。

极佳视界的4D模型产品率先在智能驾驶场景下完成了落地。近日,极佳科技联合北京大学、理想汽车及中国科学院自动化研究所联合推出了DriveDreamer4D的下一代产品ReconDreamer,实现了自动驾驶场景自由视角重建+生成。正如同李飞飞及其团队在「空间智能」模型中展现的革新一样,ReconDreamer 仅需要单视角输入视频,即可通过同时重建+生成构建逼真的 4D 世界,第一次实现了平移 6 米范围的高精度渲染,推动这一领域从静态跨越至动态,从单点扩展到全域通用。


ReconDreamer 的整体框架

凭借4D世界模型技术领先优势,极佳科技与地平线、亿咖通等十余家头部主机厂企业缔结商业合作。极佳科技在国内是唯一一家以世界模型产品完成商业化落地的公司。在近期现代汽车集团创新计划颁奖典礼上,极佳视界凭借 4D 世界模型与视频生成领域的创新成果,荣膺“灯塔”创新开放计划“创新企业奖”。

具身智能:有望在世界模型的赋能下蓬勃发展

自动驾驶是「具身智能」重要落地场景之一。具身智能机器人「大脑」在一定程度上和自动驾驶相似,在开放场景和路径规划上具有一定的迁移性。同时,具身智能机器人和自动驾驶的技术在算法层面也是相通的。

鉴于自动驾驶和具身智能在大脑构造、开放场景与路径规划以及算法层面的高度相似性与关联性,在自动驾驶领域成功构建并验证世界模型且获头部厂商认可的极佳科技,无疑在具身智能这片广袤蓝海中拥有发展的无限潜力与广阔前景,有望成为推动具身智能行业蓬勃发展的重要引擎与加速器。

基于在智驾场景下的技术沉淀,在具身智能领域,极佳科技更进一步,在“呈现重建”的能力之上,引入了可微物理引擎核函数,并将可微渲染能力、可微物理能力融入到统一生成模型中,创建更接近真实世界的虚拟训练环境。具体结构如下:



具体而言,大致分成3步:

1.基于“重建+生成”的循环迭代过程,完成“4D场景呈现”工作。

2.在“4D场景呈现”基础上,查询/渲染得到初始材质场。将物理特性与呈现进行关联对齐。之后,基于真实数据fine-tune,确定整个场景中精确的材质场参数。

3.统一生成模型内嵌了物理引擎核函数,其中对于场景中的物体为双表征。生成模型基于物理引擎核函数进行未来Gaussian的参数变化预测,经过视频生成模块,最终完成进行多物体融合呈现。

可微渲染与可微物理的融合,构成了真正意义的learn-based仿真器。这也是创造性的,基于生成模型进行可解释的、符合物理规律的空间推理。

展望未来极佳科技致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动。极佳科技的4D世界模型会继续朝更加通用泛化、更加高效的方向持续进化。一方面适应具身智能更多样化、更复杂的业务场景,另一方面加速推进世界模型提升到端侧进一步与具身智能本体进行融合。极佳科技的4D世界模型有望成为弱人工智能向通用人工智能演进的关键基础,扮演着至关重要的角色。

ad1 webp
ad2 webp
ad1 webp
ad2 webp