智东西
作者 ZeR0
编辑 漠影
智东西3月19日报道,英伟达今日宣布推出全新NVIDIA Cosmos世界基础模型(WFM)的重大更新,该模型引入了开放式、可完全定制的物理AI开发推理模型,可实现物理AI的预测、可控世界生成和推理,让开发者以前所未有的方式控制世界生成。
1X、Agility Robotics、Figure AI、Foretellix、Skild AI、Uber是首批采用Cosmos的企业,可更快、更大规模地为物理AI生成更丰富的训练数据。
英伟达创始人兼CEO黄仁勋认为,Cosmos世界基础模型是物理AI的一项重大突破,为物理AI带来了一个开放式、可完全定制的推理模型,给机器人和物理工业领域的突破性发展带来了机遇。
同时,NVIDIA Omniverse物理AI操作系统正扩展至更多行业和伙伴。
Accenture、Ansys、Cadence、Databricks、Dematic、Hexagon、Omron、SAP、Schneider Electric With ETAP、西门子将Omniverse与领先的软件工具连接。
Foxconn、通用汽车、现代汽车集团、凯傲集团、梅赛德斯-奔驰、Pegatron、Schaeffler都在采用Omniverse进行工业AI转型。
英伟达还推出了两款由NVIDIA Omniverse和Cosmos平台提供支持的新蓝图,为开发者提供用于机器人和自动驾驶汽车后训练的大规模可控合成数据生成引擎。
四款全新蓝图正在助力机器人工厂和大规模合成数据生成。
一、发布三款Cosmos世界基础模型,加速物理AI的数据管理和后训练
新发布的Cosmos世界基础模型有三款:Cosmos Transfer,用于合成数据生成;Cosmos Predict,用于智能世界生成;Cosmos Reason,用于物理AI的多模态推理。
Cosmos Transfer能够吸收结构化视频输入,如分割图、深度图、激光雷达扫描、姿态估计图和轨迹图等,以生成可控、逼真的视频输出。
该模型可简化感知AI训练,将Omniverse中创建的3D仿真或真值转换为逼真视频,用于大规模可控合成数据生成。
Agility Robotics将是最早采用Cosmos Transfer和Omniverse进行大规模合成数据生成,用以训练其机器人模型的公司之一。Agility Robotics首席技术官Pras Velagapudi认为,Cosmos为其提供了一个在真实世界可采集的数据之外,扩展逼真训练数据的机会。
用于自动驾驶汽车仿真的NVIDIA Omniverse蓝图借助Cosmos Transfer放大基于物理传感器数据的变化。借助该蓝图,Foretellix可以通过为不同驾驶数据集改变天气和光照等条件来丰富行为场景。Parallel Domain也正在使用该蓝图将类似的变更应用于他们的传感器仿真。
用于合成操作运动生成的NVIDIA GR00T蓝图结合了Omniverse和Cosmos Transfer,可大规模生成多样化数据集,利用OpenUSD驱动的仿真,将数据采集和增强时间从数天缩短到数小时。
此前在今年1月CES上宣布的Cosmos Predict世界基础模型,能够通过文本、图像和视频等多模态输入生成虚拟世界状态。
新的Cosmos Predict模型将支持多帧生成,在给定开始和结束输入图像的情况下,预测中间行为或运动轨迹。这些模型专为后训练而打造,可使用英伟达开放的物理AI数据集进行定制。
借助英伟达Grace Blackwell NVL72系统及其庞大的英伟达NVLink域的推理计算能力,开发者可以实现实时世界生成。
1X正在使用Cosmos Predict和Cosmos Transfer来训练其新型人形机器人NEO Gamma。机器人大脑开发商Skild AI正在利用Cosmos Transfer增强其机器人的合成数据集。 Nexar和Oxa正在使用Cosmos Predict来升级其自动驾驶系统。
Cosmos Reason是一个开放式、可完全定制的世界基础模型,具有时空感知能力,它使用思维链推理来理解视频数据,并能够预测交互结果,如一个人走进人行道或一个盒子从架子上掉下来。
开发者可以使用Cosmos Reason来提升物理AI数据标注和管理,增强现有世界基础模型或创建新的视觉语言动作模型。 他们还可以对其进行后训练,构建高级规划器,以指导物理AI如何完成所需操作。
Cosmos世界基础模型可在英伟达API目录中预览,现已列入谷歌云上的Vertex AI Model Garden 中。 Cosmos Predict和Cosmos Transfer在Hugging Face和GitHub上公开提供。Cosmos Reason开放抢先体验。
基于其下游任务,开发者可以在NVIDIA DGX Cloud上使用原生PyTorch脚本或NVIDIA NeMo框架对Cosmos世界基础模型进行后训练。
Cosmos开发者还可以使用DGX Cloud上的NVIDIA NeMo Curator来加速数据处理和管理。
Linker Vision 和 Milestone Systems正将其用于管理海量视频数据,训练用于视觉智能体的大视觉语言模型,这些智能体基于英伟达AI蓝图进行视频搜索和总结。Virtual Incision正在探索将其部署在未来的手术机器人中,而Uber和Waabi正在推动自动驾驶汽车的开发。
根据英伟达可信AI原则,英伟达在所有Cosmos世界基础模型中都采用开放式护栏。 此外,英伟达正与谷歌DeepMind合作,将SynthID集成到水印中,帮助识别Cosmos世界基础模型NVIDIA NIM微服务的AI生成结果。
二、Omniverse扩展至更多企业,推动工业AI转型
数字化对于立足于物理世界的行业来说具有挑战性。来自传统系统的海量数字和物理世界数据形成了多个孤岛。NVIDIA Omniverse是一个基于OpenUSD构建的操作系统,可帮助开发者统一物理世界的数据和应用。
英伟达今日宣布Ansys、Databricks、Dematic、Omron、SAP、Schneider Electric with ETAP、西门子等领先的工业软件和服务提供商正在将NVIDIA Omniverse平台集成到他们的解决方案中,利用物理AI加速工业数字化。
英伟达Omniverse和仿真技术副总裁Rev Lebaredian谈道,Omniverse是一个将全球物理数据与物理AI领域连接起来的操作系统,借助Omniverse,全球工业软件、数据和专业服务领导者正在以前所未有的速度统一工业生态系统并构建新应用,助力各行业高速推动新一代AI发展。
Ansys、Cadence、Hexagon、Omron、Rockwell Automation、西门子正在将Omniverse数据互操作性和可视化技术集成到其领先的工业软件、仿真和自动化解决方案中,以加速产品开发和优化制造流程。
物理AI方面,Alphabet旗下公司Intrinsic正在使用Flowstate助力Omniverse工作流和英伟达机器人基础模型从数字孪生过渡到硬件部署。Databricks正在将NVIDIA Omniverse与Databricks数据智能平台集成,这将实现物理AI的大规模合成数据生成。
美国大型汽车制造商通用汽车宣布采用Omniverse来增强其工厂和培训平台,以用于材料处理、运输和精密焊接等运营。在制造生命周期的另一端,联合利华宣布采用Omniverse和物理精确的数字孪生来简化和优化其产品的营销内容创作。
为了简化基于OpenUSD的应用的开发、部署和横向扩展,NVIDIA Omniverse现已在AWS Marketplace上的配备NVIDIA GPU的EC2 G6e实例中提供。微软Azure Marketplace现已在 NVIDIA A10 GPU上提供预配置的Omniverse实例和Omniverse Kit App Streaming,使开发者能够轻松开发和流式传输自定义Omniverse应用。
这些基于云的英伟达Omniverse开发者工具和服务预计将在今年晚些时候发布,这些工具将在配备英伟达GPU的Oracle云基础设施计算裸机实例上提供,以及谷歌云上新发布的NVIDIA RTX PRO Blackwell服务器版。
在GTC上,英伟达与Destney Research和Intrinsic一起推出了用于机器人的OpenUSD资产结构工作流。这种新结构和数据工作流使用OpenUSD内部的优秀实践来统一机器人工作流,为所有数据源提供通用语言。
三、四款全新蓝图,助力机器人设施和大规模合成数据生成
与Cosmos世界基础模型相连接的新NVIDIA Omniverse蓝图现已推出,可实现用于物理AI开发的机器人就绪设施和大规模合成数据生成。
4款全新蓝图助力机器人设施和大规模合成数据生成。
Mega是一个用于在工业数字孪生中大规模测试多机器人机群的Omniverse蓝图,现已在 build.nvidia.com上发布预览版。
还有一款由NVIDIA Metropolis平台提供支持的用于视频搜索和总结的NVIDIA AI蓝图,能够构建可监控整个设施活动的AI智能体。
制造业领导者正在使用这些蓝图,通过物理AI优化其工业运营。
在汽车制造领域,Schaeffler和Accenture开始采用Mega来测试和模拟用于材料处理自动化的 Agility Robotics Digit车队。
现代汽车集团正使用该蓝图在装配线上模拟波士顿动力Atlas机器人,梅赛德斯-奔驰正使用它来模拟Apptronik的Apollo人形机器人,以优化车辆装配操作。
在电子制造业领域,Pegatron正在使用Mega开发基于物理AI的NVIDIA Metropolis视频分析智能体,以改善工厂运营和工人安全性。富士康正在使用该蓝图,在其制造设施中对工业机械手、人形机器人和移动机器人进行模拟,以支持NVIDIA Blackwell平台。
Foxconn核心子公司Fii首席执行官Brand Cheng说:“借助NVIDIA Omniverse和Mega,我们正在测试和训练人形机器人,以便在我们的领先工厂中运行,进入下一波物理AI热潮。”
在仓库和供应链解决方案方面,凯傲集团、Dematic和Accenture宣布将集成Mega以推动新一代AI赋能自动化发展。idealworks正在将Mega集成到其车队管理软件中,以模拟、测试和优化机器人机群。SAP客户和合作伙伴可以使用Omniverse为仓库管理场景开发自己的虚拟环境。
借助面向AI工厂数字孪生的新Omniverse蓝图,数据中心工程师可设计和模拟AI工厂布局、冷却和电气,从而最大限度地提高利用率和效率。
Cadence Reality数字孪生平台和Schneider Electric with ETAP是最先将其仿真软件与蓝图集成的公司,而Vertiv和Schneider Electric正在为其电力和冷却装置提供Omniverse SimReady 3D模型,以加速AI工厂数字孪生的开发。
用于合成操作运动生成的NVIDIA Isaac GR00T蓝图现已面向机器人开发者开放,可实现 Omniverse和Cosmos的大规模合成数据生成。 该蓝图可帮助人类开发者将数据采集时间从数小时缩短到数分钟,从而快速推进机器人开发。
结语:迈向物理AI之门
在GTC主题演讲中,黄仁勋谈到自2012年AlexNet神经网络问世以来的四次AI浪潮,从感知AI、生成式AI、代理型AI(AI智能体)走向物理AI。
从世界基础模型到Omniverse平台,都是英伟达为辅助模拟现实世界的物理特性和优化虚拟世界训练开发所锻造的利器。这些不断丰富和优化的模型和软件工具,正使更多机器人、自动驾驶、工业AI开发者从中受益。