新智元报道
编辑:定慧 好困
【新智元导读】人类进化12000年,只为等AI觉醒?黄仁勋宣布「AI工厂时代」正式到来!从农业到工业再到AI革命,英伟达如何用算力推动历史巨轮?未来,每家公司都将有一个专属的超级智能工厂。并全览目前最先进的GB200 NVL72的详细参数。
当谈到AI时,上下文(Context)就是一切;当谈到上下文时,数据就是一切。
当谈论数据时,算力就是一切;而谈起算力,皮衣教主就会闪亮登场了。
老黄在2025 GTC大会上预言:
在这里,「AI工厂」一词并非隐喻,而是对存在于现代AI超级计算机真实面貌的写照。
人类智能需要上下文,需要数据,需要脑力,既然人类按照自身的形象创造了AI(基于大模型),这个道理自然也延伸到了AI上。
英伟达准备打造的AI工厂,是一种能够处理数PB数据并根据需求给出智能答案的超级计算机,是一种推动全球经济与文化巨变的新型工厂。
数据的一天
你是否好奇,我们人类是如何走到这一步的?AI工厂的出现是科技发展的必然吗?
AI工厂会把人类变成某种数字超级智能的生物引导程序吗?
如果你想更加深入的理解人类如何走到这一步,让我们先回到12000年前看看。
从石器,到汽车,再到GPU
大约12000年前,人类的祖先厌倦了四处流浪寻找食物与住所,于是他们开始在一个地方定居下来——主动种植作物、饲养牲畜以满足食物需求。
农业(种田、耕作)本质上就是一种食物工厂,只不过主要在户外进行,因为植物和动物的生长需要阳光、水和空气。
中世纪时,firma一词指的是为了种植作物而支付的固定土地租金,因此也成为农业的同义词。
新石器革命
农业迫使人类组织成等级分明的群体进行劳作。
文字是为了管理而创造的——记录食物工厂的投入与产出,以及管理围绕农业形成的社会规则(当然,这些规则在不同地区存在差异)。
人类最终将文字的用途扩展到其他领域,直到今天,它依然是传递大量密集信息最快的方式。
从人类放下弓箭和长矛,拿起锄头、耙子、犁耕地,并在泥板上刻下第一个符号的那一刻起,AI的诞生就已经不可避免——AI工厂的出现也只是时间问题。
工业革命
人类花费数千年才得以积累足够的粮食盈余,「剩余」催生出最早的商人阶级——通过手工制造物品供其他人使用。
制造业(manufacturing)一词的字面意思就是拉丁语中的「用手制造」。
有了商业,随之出现了一种通用的交换媒介——货币,加速了以物易物的过程,并逐渐演变成现在所熟悉的经济体系。
更准确地说,是形成了「全球经济」,因为在地理大发现之后的第一波全球化浪潮将不同大陆重新联系到了一起,使各个地区或国家的经济不再孤立。
从那时起,全球化经历了多次浪潮,彻底改变了农业和制造业。
工厂(标准化生产的场所)最大的转变是将制造过程拆分成多个步骤,以加快生产速度并提高可重复性。
这场工业革命恰好与启蒙运动同时发生,识字率迅速提升,因为工厂需要受过教育的工人来最大限度提高效率、减少浪费。
教育从来不是目的,而是一种必要条件。随之而来的,则是财产权、人身安全和自由,以及接受迅速而公正审判的权利。
福特汽车流水线工厂
在21世纪,人们已经将这些权利视为理所当然,但实际上应当感谢18世纪的贡献。
工厂将制造活动转移到室内。
通过蒸汽动力、随后电力的应用,以及流水线精益生产等技术,以低成本生产现代生活所需的商品,使普通人不仅能负担得起基本生活,还能享受一定的舒适与便利。
制造业将人们从农田中解放出来,创造了一个农业社会无法想象的庞大中产阶级,使经济以前所未有的方式扩张。
AI革命
然后互联网出现了。
互联网将所有人连接在一起的同时,创造了一种前所未有的新资源——数据。
数据信息就是新时代的「金矿」,各个巨头从数据中挖掘出你的一切需求。
而AI革命的发生,必须等到海量的文本、图像、视频和音频数据被计算机化,并且等到大规模的计算能力能以可负担的价格用于处理这些数据时。
其中,大数据的本质就是足够精确的信息量,运行在一组具有高内存带宽的大规模并行GPU上,而这些GPU又提供了足够精确的计算能力,足以创建能够编码人类对这个世界知识的神经网络,从而使AI真正发挥作用。
所有这些条件必须同时满足。
在20世纪80年代,研究人员拥有神经网络的算法,但他们没有足够的计算能力来运行它们,也没有足够的数据来喂养它们。
当时,现在所知的AI在很大程度上仍然停留在理论阶段,直到所有这三个条件都得到满足。
AI工厂:并非隐喻,而是蜕变
AI工厂这一概念并非比喻——而是对真实存在的AI超级计算机的真实描述。
它不仅改变了企业计算的本质,也彻底重塑了数据分析的方式——数据的综合与提炼,转化为行动或非行动所需的信息。
AI工厂的出现是必然的,就像农业工厂(人们合作供养彼此)一样不可避免。
社会与文化围绕这种革命进行变革,为人类带来了更多自由时间去思考与创造。
如今,人类拥有了能够获取人类全部知识并以对话形式检索的机器。更重要的是,这些机器能够被反向运行,按照提示生成各种格式的新数据。
未来,每个企业和个人都会拥有自己的AI工厂,或至少共享其中的一部分。这些AI工厂将产生新想法、新视野,帮助人类拓展自身的创造能力。
也许今天世界各地在很多问题上缺乏共识,但关注AI革命的人都认同,AI日益增强的能力将改变人类的一切认知和行动。
使命:洞见与行动的制造之地
AI工厂有两项工作。第一项是训练基础模型,这些模型提供人们都寻求的洞见,以改善业务和生活。
第二项,也是最终更重要的工作,是将新数据和问题输入模型,让其推理出新答案——生成新的Token——以提供进一步的洞见并驱动行动。
COLOSSUS:马斯克xAI的巨型计算工厂,配备十万片H100 GPU
在过去十年中,围绕AI的大量讨论都集中在Scaling Law上,这些模型现在拥有数千亿到超过万亿的参数(类似于人脑中突触的放电水平),以及处理的数据量(数万亿到数十万亿的Token,并且还在增长)。
Token数量代表知识量有多少,而参数量则代表已知知识的思考能力有多强。
在较大的Token集上使用较小的参数量会带来更快但更简单的答案。
在较小的Token集上使用较大的参数量会让你对有限事物的理解给出更好的答案。
如今,思维链推理模型(本质上也是多模态的,不仅仅关注文本)正在将数百个专业模型整合在一起协同工作,它们会考虑驱动其他输入的输出,花费更多时间来生成我们人类称之为答案的更好的Token流。
有了AI工厂,人类创造的所有内容和AI模型生成的合成数据都成了原材料。
从这海量的历史数据宝库中获得的洞见是收获的成果,拥有人类智慧的人和具备AI的AI智能体利用这些洞见来做事。
这一次,人类不再是去工厂上班,而是将接入工厂作为其工作的一部分,用自己的技能来增强模型广泛的知识和速度,从而更好更快地完成更多事情。
非凡的工程壮举
「世界正在竞相建设最先进、大规模的AI工厂」,英伟达联合创始人兼首席执行官黄仁勋在最近于圣何塞举行的2025 NVIDIA GTC大会的主题演讲中解释道。
「建设一个AI工厂是一项非凡的工程壮举,需要来自供应商、架构师、承包商和工程师的数万名工人来建造、运输和组装近50亿个组件以及超过20万英里的光纤——几乎是从地球到月球的距离。」
强大的硬件加持
建设一个AI工厂是一项重大的资本投资。
一个AI工厂的合理配置是基于8个DGX B200系统机架的DGX SuperPOD,它由GPU、CPU、节点间的Quantum-X InfiniBand或Spectrum-X Ethernet互连技术以及存储组成。
配备32个DGX B200系统后,这个SuperPOD提供了4.61 exaflops的FP4性能,拥有48TB的HBM3内存和2PB/秒的总内存带宽。
每个DGX B200配8个Blackwell GPU,并通过第五代NVLink互连,DGX B200提供比上一代系统高3倍的训练性能和15倍的推理性能。
英伟达另一个AI工厂的蓝图是基于GB200 NVL72平台,这是一个机架级系统,同样包含 GPU、CPU、DPU、SuperNIC、NVLink和NVSwitch,以及InfiniBand和Spectrum-X网络。
但它为AI模型提供了更大的共享GPU内存域(72个GPU插槽,相比之下DGX B200节点只有8个),并且具有更高的计算密度,因此需要液冷。
GB200 NVL72于2024年3月发布,现已全面出货。
GB200 NVL72机架级系统确实是一个完整的系统——除了你的数据之外,它不需要任何其他东西就可以开始构建模型,然后转身开始以文本、图像、视频或声音格式输出数据 Token。
GB200 NVL72的基本构建模块是一个MGX服务器节点,该节点包含一个Grace CPU作为一对Blackwell GPU的主机处理器,而这对Blackwell GPU本身是位于单个SXM插槽中的一对Blackwell GPU晶粒。
两个这样的服务器节点组合成一个内置于NVL72机架中的计算托盘。机架中有18个计算托盘,共构成72个GPU(144个GPU晶粒)和36个CPU。
GB200 NVL72机架级系统将Grace CPU与一对Blackwell GPU相结合,CPU和GPU之间通过450GB/秒的NVLink连接。
1.8TB/秒的NVLink端口与NVSwitch芯片一起使用,将所有72个GPU(144个GPU晶粒,每个900GB/秒)连接成一个全互联(all-to-all)、共享内存式的配置,这种配置非常适合基础模型训练(当它们为大规模互连时)以及思维链推理。
由9个NVLink交换托盘(总共18个NVSwitch芯片)创建的NVLink互连结构使得这144个GPU晶粒可以像一个巨大的GPU一样被访问。
GB200 NVL72系统拥有2,592个用于主机处理的Arm核心,并提供1.44 exaflops的FP4精度浮点处理能力,精度每提高2倍,吞吐量减半。
GB200 NVL72系统拥有连接到GPU的13.4TB HBM3e内存,总带宽高达576 TB/秒。那些 Grace CPU拥有总共17.3 TB的LPDDR5X内存,与GPU仅相隔一个NVLink跳跃,并提供另外18TB/秒的总带宽。
GB200 NVL72对于AI革命的意义,就像System/360对于五十年前的联机事务处理和批处理革命的意义一样。
IBM System/360是一个计算机系统家族,由IBM于1964年4月7日宣布
当时与现在的一个主要区别是,NVL72可以通过InfiniBand互连进行横向扩展,这正是DGX SuperPOD中所采用的方式。
而一旦购买了最大的System/360,那就是它的极限了,必须等待下一个升级周期才能获得更强大的机器。
基于NVL72机架级系统的DGX SuperPOD配置需要近1 兆瓦的电力,但在8个计算机架上提供了11.5 exaflops的计算能力和240 TB的HBM3e内存。
如果需要更高的性能,就像任何SuperPOD一样,只需购买更多机架即可。
NVL72机架的计算密度需要专门的液冷技术和支持该技术的数据中心设施。
冷都不是一个新想法,在某种程度上,使用液冷是一种「倒退」。
回到20世纪60年代和70年代,那些改变了各行各业的大型主机也采用液冷的时代——以便它们能够发挥当时可用的绝对最高性能。
随着推理被嵌入到各种应用程序中,一个AI工厂几乎肯定需要比这多得多的计算能力,特别是如果想要合理的查询和AI智能体性能,并且随着不可避免地转向思维链推理模型。
据估计,思维链推理模型所需的计算量比早期大语言模型常见的那种一次性、简单回答多出100倍。
全面的软件生态
DGX GB200系统和相关的DGX SuperPODAI超级计算机需要进行管理和建模,这就需要用到几种不同的工具。
NVIDIA Mission Control(包括Run.ai)负责在整个基础设施中编排AI工作负载,并在出现问题时自动恢复作业。
Mission Control对系统进行健康检查,并帮助根据系统上运行的工作负载优化功耗。
在此之上是NVIDIA AI Enterprise,这是一个系统软件,包含了为在英伟达GPU和网络上加速而优化的库、模型和框架。
AI工厂技术栈现在还包括NVIDIA Dynamo,这是一个用于在NVLink和DGX SuperPOD基础设施上运行推理的开源分布式框架。
DGX专家服务与支持(DGX Expert Service and Support)帮助客户快速实施这些技术,并缩短其AI工厂首次生成Token的时间。
对于那些构建和扩展这些系统的人,英伟达为其Omniverse「数字孪生」环境和设计工具创建了AI工厂蓝图,以模拟构成AI工厂的整个数据中心,从而确保其在首次构建时就能正确无误,并在不可避免的扩展过程中保持正确。
也许AI工厂最重要的方面是它所催生的思维转变,以及英伟达在其当前系统和路线图中所关注的重点,这向客户保证了机架级和系统有充足的增长空间。
「我认为,AI工厂之所以如此令人兴奋且需求旺盛,是因为对许多公司而言,生成Token现在等同于创造营收」,英伟达网络高级副总裁Gilad Shainer表示。
「我们不再将数据中心视为成本中心,而是视为能够产生收入的生产性资产」。
毕竟,这才是建造AI工厂的全部意义所在。
参考资料:
https://www.nextplatform.com/2025/04/11/the-ai-factory-12000-years-in-the-making-and-absolutely-inevitable/?linkId=100000357151212