智东西
作者 ZeR0
编辑 漠影
智东西1月13日报道,在CES 2025主题演讲中,NVIDIA(英伟达)创始人兼CEO黄仁勋宣布推出了一个世界基础模型平台Cosmos。该平台将解决掣肘通用机器人及自动驾驶发展的一大关键阻力——训练数据。
这是一个由先进的生成式世界基础模型(WFM)、高级视频tokenizer、护栏、加速视频处理流水线组成的平台,针对NVIDIA数据中心GPU进行了优化,将有助于推动自动驾驶汽车、机器人等物理AI系统的发展。
物理AI模型的开发成本很高,需要大量真实数据和测试。Cosmos世界基础模型使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。开发者还可以通过微调Cosmos世界基础模型来构建自定义模型。
其首批用户包括1X、思灵机器人(Agile Robots)、Agility、Figure AI、Foretellix、傅利叶(Fourier)、银河通用(Galbot)、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi、小鹏汽车等的全球物理AI领先企业,涉及机器人、自动驾驶、共享出行等领域。
Cosmos模型将以开放模型许可证的方式提供。首批模型有8款,参数量从40亿到140亿不等。
Hugging Face地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
NVIDIA API目录中可预览首批模型,NVIDIA NGC目录或Hugging Face也支持下载整个系列的模型和微调框架。很快这些模型将以经过全面优化的NVIDIA NIM微服务形式提供。
开发者可以使用NVIDIA NeMo Curator加速视频处理,并使用NVIDIA NeMo来定制自己的世界模型,然后可通过NVIDIA DGX Cloud快速、简单地部署这些模型,还可以获得NVIDIA AI Enterprise软件平台提供的企业支持。
一、机器人ChatGPT时刻将近,世界基础模型助攻物理AI普及
“机器人技术的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型是推动机器人和自动驾驶汽车开发的基础。”NVIDIA创始人兼CEO黄仁勋谈道,并非所有开发者都拥有自主训练模型所需的专业知识和资源,英伟达创建Cosmos的目的是普及物理AI,让每一位开发者都能接触到通用机器人技术。
借助NVIDIA Cosmos的开放模型套件,开发者可以根据目标应用的需要,使用数据集定制自动驾驶汽车旅行视频、机器人在仓库中的移动轨迹等世界基础模型。
Cosmos世界基础模型专为物理AI的研发而生,是一套开放扩散和自回归Transformer模型,为实现基于物理学的交互、物体恒存性以及生成高质量的仿真工业环境(如仓库、工厂)和驾驶环境(包括各种路况)而构建。
这些模型接受了来自2000万小时真实世界人类交互、环境、工业、机器人、自动驾驶数据的训练,可根据文本、图像和视频等输入组合以及机器人传感器或运动数据生成基于物理学的视频。
黄仁勋在CES主题演讲期间展示了一些开发者使用Cosmos模型的用例:
1)视频搜索和理解:使开发者能从视频数据中轻松找到特定的训练场景,例如雪天路况或仓库拥堵等。
2)基于物理学的逼真合成数据生成:使用Cosmos模型从NVIDIA Omniverse平台上开发的可控3D场景中生成逼真视频。
3)物理AI模型开发和评估:在基础模型上构建自定义模型,使用Cosmos进行强化学习以改进模型,或者测试模型在特定仿真场景中的表现。
4)预测与“多元宇宙”模拟:使用Cosmos和Omniverse生成AI模型所有未来可能实现的结果,以便帮助其选择最佳和最准确的路径。
二、提供先进开发工具,保护数据隐私安全
构建物理AI模型需要数PB(petabytes)的视频数据以及数万小时的计算,来处理、整理和标记这些数据。
为了帮助节省在数据整理、训练和模型定制方面的巨大成本,Cosmos提供了以下功能:
- NVIDIA NeMo Curator驱动的NVIDIA AI和CUDA加速数据处理管线,使开发者能够使用NVIDIA Blackwell平台在14天内处理、整理和标记2000万小时的视频,而如果仅用CPU则需要3年以上。
- NVIDIA Cosmos Tokenizer是先进的可视化tokenizer,可将图像和视频转换成token。与当前领先的tokenizer相比,其总压缩率提高了8倍,处理速度提高了12倍。
- NVIDIA NeMo框架可用于高效的模型训练、定制和优化。
关于世界模型的隐私和数据保护问题,NVIDIA也做了一系列设计。Cosmos根据NVIDIA的可信AI原则开发而成。该原则将优先考虑隐私、安全、保障、透明和减少不必要的偏见。
Cosmos开放平台加入了专为减少有害文字和图像而设计的护栏,并提供了一个增强文字提示准确性的工具。使用NVIDIA API目录上的Cosmos 自回归模型和扩散模型生成的视频会带有隐形水印,可识别AI生成的内容,这有助于减少错误信息和错误归属的可能性。NVIDIA还将进一步改进其应用的护栏和水印解决方案。
三、多家物理AI企业已采用,加速人形机器人、自动驾驶开发
许多物理AI行业的领先者已开始使用Cosmos技术。
例如AI人形机器人公司1X使用Cosmos Tokenizer推出了1X World Model Challenge数据集。Hillbot和Skild AI正在使用Cosmos加速其通用机器人的开发。小鹏汽车也将使用Cosmos加快其人形机器人的开发。
“数据的稀缺性和可变性是在机器人环境中成功学习的主要挑战。”Agility首席技术官Pras Velagapudi分享说,“借助Cosmos的文本、图像和视频到世界的能力,我们能够在各种任务中生成和增强逼真的场景并利用这些场景训练模型,而不需要采集那么多昂贵的真实数据。”
一些交通运输领域的领先企业也在使用Cosmos构建适用于自动驾驶汽车的物理AI。
Waabi是一家从自动驾驶汽车开始致力于开发物理世界生成式AI的公司,正在评估Cosmos在自动驾驶汽车软件开发和仿真中数据整理的应用。自动驾驶AI基础模型公司Wayve也正在评估使用Cosmos搜索用于提高安全性和验证的极端驾驶场景。
自动驾驶汽车工具链提供商Foretellix将使用Cosmos与NVIDIA Omniverse Sensor RTX API大规模评估和生成高保真测试场景与训练数据。
全球共享出行巨头Uber正与NVIDIA合作共同加速自动驾驶汽车的发展。Uber丰富的驾驶数据集在与Cosmos平台和NVIDIA DGX Cloud的功能结合后,能帮助自动驾驶汽车合作伙伴更加高效地构建更强大的AI模型。
Uber首席执行官Dara Khosrowshahi提到生成式AI将驱动未来的移动出行,这需要丰富的数据和强大的算力。他相信在NVIDIA的助力下,Uber团队能够帮助行业更快开发出安全、可扩展的自动驾驶解决方案。
结语:打开AI理解物理世界之门
机器人、自动驾驶等物理AI的开发离不开大量真实数据。NVIDIA Cosmos平台的出现恰逢其时,通过能够生成高仿真虚拟世界状态的世界基础模型,为一众开发者们提供了教AI理解物理世界的关键工具。
这是也是NVIDIA未来AI雄心的展现。真实世界充满各种物理原理,要让AI具备更强的通用智能、能够模拟出与现实世界如出一辙的自然运作,理解物理世界是不可避免的下一个重点发展方向。而NVIDIA打造的Cosmos、Omniverse平台组合,将使得生成逼真合成数据更加轻而易举,从而加速物理AI的构建与应用。