《科创板日报》1月17日讯(记者 郭辉) Chiplet被认为是应对摩尔定律放缓、解决芯片高性能运算需求的一大技术方向。近两年的产业成熟,使得Chiplet的技术愿景变得更加清晰。
在位于上海张江的中科创星张江硬科技孵化器园区,奇异摩尔2024年正式入驻于此。这是一家成立于2021年3月的芯片公司,起初,Chiplet技术是他们身上最鲜明的标签。经过近四年的成长,奇异摩尔如今构建了一套涵盖Scale Out(网间互联)、Scale Up(片间互联)、Scale Inside(片内互联)的AI网络互联全栈式产品体系。
面对生成式AIGC爆发这一契机,奇异摩尔在Chiplet技术基础上对企业自身的定位和发展上做了哪些战略升级与规划?AI算力需求发展为这家企业带来了哪些机遇?
近期,奇异摩尔联合创始人、产品及解决方案副总裁祝俊东接受了《科创板日报》记者的专访,并对以上问题进行了深入解读。
祝俊东表示,Chiplet依然是奇异摩尔的技术基础,该公司也由片内互联业务为切入,布局了以“互联”为核心关键词的产品体系。
随着算力集群的发展,奇异摩尔始于几年前的布局,构建了一整套平替国际领先厂商的Scale Inside芯片内互联、Scale Up超节点GPU片间互联及Scale out超大规模服务器集群间互联的产品解决方案,未来可能将迎来远超市场想象的成长速度。
从片内到多维度互联解决算力难题
面向北向Scale Out网络的AI原生智能网卡、面向南向Scale Up网络的GPU片间互联芯粒,以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等,这些产品共同构成了奇异摩尔全链路互联解决方案。
奇异摩尔联合创始人、产品及解决方案副总裁祝俊东接受《科创板日报》记者专访表示,早在公司创立初期,就已对现有的产品体系进行了完整规划。然而,在Chatgpt带来了AI产业变革后,计算集群的算力问题,要在比他们几年前预想的要更早到来。
“‘互联’,是要实现计算单元和存储单元的连接,需要从微观到宏观的一整套架构和产品。这项工作是一个复杂且长期的工程。”祝俊东表示,因此,奇异摩尔最初从Chiplet的片内互联为切入口,想要首先解决芯片本身的算力问题。
于是,奇异摩尔在完成片内互联产品开发后,开始布局片间互联跟网间互联类产品,用以解决更大规模的算力问题,目前该公司的发展也正沿着这一方向行进。
祝俊东表示,Chiplet作为产品系列的技术基础,具有较强的延展性及灵活性,可集成或应用于其他类型的芯片产品开发中,比如万卡乃至十万卡之间的集群互联解决方案。
提到计算集群的算力调度功能,不免让人想到传统网卡以及近年同样火热的DPU产品。
关于奇异摩尔现有的网间互联产品与其他类似产品功能的区别,祝俊东表示,公司会把正在做的产品归为AI原生的智能网卡产品。“要实现几百G、上Tb级别数据带宽的服务器卡间数据交互,这是计算在不同阶段、针对不同类型任务的产物,也是公司产品功能的差异化特点”。
祝俊东表示,在云计算阶段,传统网卡或DPU需要把全部网络连接在一起,并将计算集群面向千万用户进行分配和管理。其中,DPU同时还兼具为CPU卸负载的功能。而在智算阶段,尤其是面向大模型训练需求时,通常需要万卡共同针对一个任务进行处理,对应的网间数据交互量较大,因此对智能网卡实现高效、高性能的数据交互形成需求。
随着AI应用需求增多、算力集群设计变得更加复杂。祝俊东认为,智算中心硬件设计未来会有三大明显的发展趋势。
一是基于现有标准,将会出现诸如智能网卡的功能产品,去适应在数十万甚至百万卡的集群之间实现高速互联和数据交互。新一代的智能网卡主要面向AI网络,尤其是在分布式训练、大规模推理的应用场景中,较DPU能够具备更少的计算能力及更低成本。
二是庞大算力集群需要设置“超节点”GPU片间互联超高带宽域,实现高规模的更高带宽集群,以近似1个GPU的形式工作。现在英伟达NVL576就是通过NVLink和NVSwitch实现超高速连接,让576张卡像一张卡运行,且英伟达也在行业内走得靠前。
据介绍,Scale Up是近几年很火的技术方向,目前业内正探索Scale Up加速器网络的速度能够实现Scale Out网络10倍以上的数据连接,提升训练和大规模推理方面的效能。
三是通过将CPU、GPU合封,形成异构计算芯片。目前英伟达GB200已实现不同类型计算单元的异构连接。
网间互联与片内互联产业应用率先突围
以奇异摩尔现有的几大业务板块来看,行业内Scale Out、Scale Up、Scale Inside的三方面需求都在不同程度快速增长当中。祝俊东表示,其中奇异摩尔Scale Out与片内互联类业务“跑得最快”。
其原因不难理解。首先,目前智算中心处于高速建设期,需要构建高性能的Scale Out网络。祝俊东表示,其对应的市场容量和规模以及产品方案的单价都非常可观,且预计每一个集群构建Scale Out网络的成本占比,都要从过去的10%以上提升到至少两成。
其次在片内互联产品方面,祝俊东观察到,从2023年开始越来越多的算力芯片几乎都开始基于Chiplet技术进行开发。据透露,奇异摩尔目前的片内互联产品已实现应用落地并持续进行开发升级。
而Scale Up片间互联市场目前仍在发展期。祝俊东表示,现在业内已经关注到了超节点对大模型训练的重要性,因此都在加大对相关开发的投入,并且也开始有行业联盟与行业标准出台,进一步推动超节点的应用。另外,多元化的GPU厂商发展使得异构式训练明显增长,也催生了对于通用Scale Up的需求。祝俊东表示,预计未来三年内应该会有比较快速的增长和发展。
“在Chiplet生态中,我们一共做三件事情,其一是与行业标准组织构建Chiplet芯粒库,这可以帮助行业在未来降低芯粒选择的难度;二是与产业链中的‘大厂’合作,研究不同厂商之间的互联互通,并把项目变成一个可以实际落地的系统级的芯片项目。”祝俊东表示,其中奇异摩尔主要提供部分芯粒以及基础技术,从而实现与其他芯粒资源和客户资源形成链接,为市场提供定制化的芯片解决方案。
以Chiplet为基础的Scale Inside片内互联技术,在近两年封装技术突破以及产业化分工合作中快速发展,产品也在高端算力场景中得到深入应用,同时,该技术为半导体产业带来的变革也立竿见影。
祝俊东表示,芯片产业从过去的单向直线形流程,随着Chiplet技术的应用,已经变为一个个环路,从设计到制造环节都需要前后观照。其次,Chiplet本身是系统功能的再分,在供应方与需求方之间能够产生比较好的协同,将需求过程理顺并完成产品定义;再者,不同厂商之间的芯粒互联互通已进入产业化实践阶段,已然改变过去分工合作的模式。
Chiplet技术进展与产业变革之间相互影响,诞生于上海这片国内半导体产业最集中的区域。
祝俊东表示,Chiplet技术生态涉及半导体全产业链合作,从最早的EDA、IP到系统级的芯片设计,再到芯粒、封装,需要完整的、闭环的产业融合,上海张江是全国范围内半导体产业链最为完整的地方。“在张江的产业环境中,我们可能在5公里范围内就把这个事情组合起来,这对产业新兴技术的开发是一个很重要的事情。”
上海的大型SoC厂商尤为多,这意味着下游有大量的产业可形成牵引,包括数据中心、汽车等,而Chiplet技术的应用落地也离不开丰富的应用场景。在祝俊东看来,基于此,目前来看,张江在这方面也有着得天独厚的环境。