机器之心报道
编辑:泽南、Panda
RISC-V 正在成为 AI 原生计算架构。
DeepSeek 的爆火震撼 AI 行业后,也带动相关行业余震不断。其中,达摩院玄铁在春节期间宣布适配 DeepSeek-R1 系列蒸馏模型,引发半导体行业高度关注,新兴的开源指令集 RISC-V 在 AI 方向展现出强劲的动力。
而今天的玄铁 RISC-V 生态大会上传来消息,RISC-V 在高性能和 AI 方向上实现双重突破,玄铁首款服务器级 CPU C930 下月开启交付,其 AI 算力大幅提升,加快布局「高性能+AI」RISC-V 全链路。
开源算力架构 RISC-V,会是开源 AI 的最佳搭档吗?
AI 模型变革
催生算力架构创新
一位芯片行业资深人士介绍,DeepSeek 不仅震撼了 AI 圈,也震撼了芯片行业。因为凭借极致的深度优化,DeepSeek 大幅降低了大模型的训练和推理成本,算力、内存、互联原有平衡发生剧变,为算力架构的创新带来了重大的机会。
传统而言,AI 大模型需要较高的算力和内存要求,更适合部署在云上,而不是端侧。但 DeepSeek 的横空问世,打破了大模型的高算力的路径依赖,它不仅降低了训练成本,也显著降低了推理的要求,正帮助大模型从云走向端。
具体来说,DeepSeek 降低了大模型对计算资源的需求,让单机部署变得可能,能够更好地适配边缘和端侧的设备。AI 要深入千行百业,覆盖多样化的各种场景,也迫切需要从云上走向端侧,才能进一步满足数据安全、个性定制、私有化部署等多样化需求。
可以预见的是,由于 DeepSeek 技术的普及,AI 芯片的形态即将重构,从原本依赖云计算的大规模并行计算,到今天可以在边缘设备上独立运行的低功耗芯片,AI 芯片正在走向多样化和高效化。
这也引发众多业界人士思考,什么样的算力架构才最适合 AI?
并行计算的 GPU 也许不是唯一解,串行计算(通用计算)也能成为 AI 计算基础。业界实践表明,DeepSeek 对多种计算体系都有较好地支持,在 CPU 上不仅能快速部署,还有较好的推理效果,这让 CPU 重回牌桌。相比专用的 GPU,CPU 一大特点就是通用性强,调度简单,能够大幅降低算力需求并发挥同构计算的优势。
而在 CPU 中,最引人注意的是后起之秀RISC-V。
春节期间,达摩院在搭载 RISC-V 处理器玄铁 C920 的芯片上对 DeepSeek-R1 系列蒸馏模型进行适配,全程耗时仅 1 小时,体验快捷顺畅。这也意味着,DeepSeek 系列模型将能够顺利部署并流畅运行在全系列玄铁 CPU 平台及其他搭载 RISC-V 架构芯片的各类 AI 端侧设备上。
RISC-V 备受关注,一方面是因为其作为新兴的指令集架构,有别于 x86、arm 的封闭或付费授权,坚持走开源开放的路线,其开源精神与 AI 天然契合。因其开源开放,RISC-V 已吸引了全球 1000 家企业的参与,从硬件设计到软件工具链,生态系统迅速壮大。根据 RISC-V 国际基金会的数据,全球已经有超过 80 个不同的 RISC-V 芯片产品被推向市场。
另一方面是因为 RISC-V 的灵活性和可扩展性。RISC-V 允许开发者根据具体需求定制指令集。由于其指令集是模块化的,开发者可以根据不同的应用场景进行定制,这种灵活性是传统架构无法比拟的。
从技术上来说,RISC-V 也非常适合新型的 AI 计算,RISC-V 的向量扩展(V-extension)能够有效处理大规模并行运算,满足 AI 计算的高效性需求。RISC-V 的开放架构与硬件加速模块可以协同工作,提升 AI 任务的执行效率。通过与 AI 算法的深度结合,RISC-V 架构可以设计专用硬件加速单元,实现对特定 AI 模型的优化。
因此,不少芯片行业资深专家期待,RISC-V 能成为 AI 时代的原生计算架构。
今天,在阿里达摩院主办的第三届玄铁 RISC-V 生态大会上,这样的预期终于到了兑现的时候。
玄铁首款服务器级 CPU 即将交付
高性能与 AI「双剑合璧」
在大会上,中国工程院院士倪光南表示:「开源 RISC-V 不仅是一项技术创新,更是一场影响未来计算架构的全球化变革。」作为「生而开源」的芯片指令集架构,RISC-V 在本轮半导体产业周期里表现突出,从嵌入式系统加速挺进高性能等复杂场景,并为 AI 算力提供新选择。
在 RISC-V 国际基金会 2024 年批准的 25 项标准中,超过一半与高性能或 AI 相关。RISC-V 国际基金会理事会主席 Lu Dai 在大会现场表示,RISC-V 指令集最激动人心的进展之一是Matrix 扩展,将推动 RISC-V 成为 AI 领域令人敬畏的力量。
据预测,到 2030 年,RISC-V 的整体份额将达到 20%,在 AI 加速器中的占比有望突破 50%。
在大会上,达摩院玄铁拿出了新一代旗舰处理器、也是首款服务器级处理器C930。
C930 通用性能算力达到 SPECint2006 基准测试15/GHz。什么概念?倪光南院士指出,RISC-V 要真正进入高性能计算市场,RISC-V 以 SPECint 2006 软件测试,必须跑出超过 15 分的高性能标准。因此,C930 迈出了 RISC-V 里程碑式的一步。
此外,C930 搭载512 bits RVV1.0和8 TOPS Matrix双引擎,将通用高性能算力与 AI 算力原生结合,并开放 DSA 扩展接口以支持更多特性要求。
同时,达摩院披露了 C908X、R908A、XL200 等玄铁处理器家族新成员的研发计划,向 AI 加速、车载、高速互联等方向持续演进。具体而言,C908X 定位为玄铁首款 AI 专用处理器,支持 4096 bits 超长数据位宽 RVV1.0 矢量扩展;R908A 面向车规级芯片的高可靠需求;XL200 则将提供更大规模、更高性能的多簇一致性互联。
配合玄铁处理器的能力拓展,达摩院也基于 Linux、Android、RTOS 三套主流操作系统推出三套玄铁 SDK,将多年来积淀的玄铁软件能力全面整合,以更完整、便捷、稳定的方式向行业输出。其中,玄铁 Linux SDK 提供包括 Hypervisor 虚拟化、CoVE 安全框架、玄铁 AI 框架、高性能算子库在内的丰富子系统,助力 RISC-V 在高性能和 AI 场景的开发启航。
在发展高性能软硬件技术的同时,玄铁更牵引产业上下游合作伙伴协同创新,加快布局 RISC-V「高性能+AI」全链路生态。
阿里死磕
RISC-V 玄铁引领国际开源社区
对于不太熟悉玄铁的读者,这里简单介绍一下。
2018 年,阿里巴巴树立了主攻 RISC-V 方向的品牌:玄铁;一年之后,首款处理器「玄铁」C910一诞生便是性能最强的 RISC-V 处理器。自那以后,玄铁就一直是国际 RISC-V 生态的引领者,也是对国际开源社区贡献最大的中国机构之一,目前在基金会技术委员会及 10 余个技术小组担任主席或副主席职位,积极推动着 AI 方向标准化的建设。
自 2019 年以来,玄铁已经陆续推出了 13 款 RISC-V 处理器,覆盖了覆盖高性能、高能效、低功耗等不同场景,包括:
- C 系列(Computing)主要针对高端服务器、高端边缘计算和行业类、消费级 IPC;
- E 系列(Embedded)主要应用于高端 MPU 与各类 MCU;
- R 系列(Reliability& Realtime)面向高端 SSD、通信、高端工控、车载等场景;
- XT-Link则是 CPU 多簇互联 IP。
迄今,玄铁处理器出货量超过 40 亿颗,已成为国内 RISC-V 领域影响力和市场占有率最大的处理器产品系列之一。
玄铁在发展过程中,一边持续突破 RISC-V 的性能天花板,不断向更高性能进发,另一边积极拥抱 AI,致力于推动 RISC-V 成为 AI 原生算力架构。
在指令集架构技术层面,利用 RISC-V 架构优异的开放性和灵活性,玄铁很早定制了面向 AI 应用的指令集扩展。其提出的矩阵运算(Matrix)扩展扩展指令集、优化大模型核心算子 GEMM,可以加速 AI 推理及训练,提升端侧 AI 能效。
在处理器上,玄铁 C907 首次实现了 Matrix 扩展,较传统方案提速 15 倍。升级版 C920 支持 Vector 1.0 和 Vector Crypto 技术,GEMM 性能指标提升超 7 倍,Transformer 算子性能提升超 17 倍。而最新的旗舰处理器 C930 兼具 vector 和 matrix 双引擎,有望成为成为端侧 AI 大模型的好搭档。
在软件栈层面,玄铁打造了端到端的 RISC-V AI 全栈软硬件平台,向芯片厂家提供通用的、高效的 AI 算力基础设施,形成面向业务的流水线设计,真正了实现底层硬件设计到上层软件工具链的便捷深度优化。该平台已应用于云端视频转码卡、AI 边缘计算盒子、RISC-V 笔记本电脑等终端产品。
除了自身技术,达摩院 RISC-V 团队也一直在引入产业上下游伙伴的力量,完善 RISC-V 的「高性能+AI」生态版图。
去年大会上,RISC-V 开源笔记本电脑「如意 BOOK 甲辰版」惊喜亮相,实现大型商用软件的稳定、流畅运行。此次,中科院软件所进一步介绍「如意 BOOK 乙巳版」、智能机器人、AI PC 等 RISC-V 高性能应用。
其中基于 C920 的 AI PC 原型机已跑通了 Llama、Qwen、DeepSeek 等开源模型,支持 AI 个人助手、AI 编程、视觉识别等 AI 应用,可以说打通了从开源硬件架构到开源操作系统、再到开源 AI 模型的「开源 AI 全链路」,单位计算能耗还降低了 30%。
除此之外,玄铁还联合合作伙伴构建了 RISC-V 视频编解码方案、云桌面解决方案等等实用解决方案。为了支撑更多行业的应用,玄铁也把 RISC-V 算力布局到了一体机、工控 AI、机器人等领域。
倪光南院士表示,玄铁这种务实的投入和创新,正是 RISC-V 生态健康发展的重要驱动力。
开源的未来
DeepSeek 的成功是开源的成功,开源指令集架构 RISC-V 问世十几年来,已经走出了与封闭式的 x86 和授权模式的 ARM 不同的发展路径,让业界看到了通过更加简洁、更开放的方式进行架构创新的机遇,因此也在得到越来越多的认可。
它正在成为 AI 时代原生架构的最佳候选 —— 一方面 RISC-V 坚持开源开放,一直处于演进变化之中,能够跟上 AI 极速变化的步伐;另一方面,RISC-V 扩展性强,可以通过移植适配与原有架构生态兼容,也能作为原生架构支撑不断涌现的新场景。
正如中科院软件所 RISC-V 负责人郭松柳说的:「AI 软件栈仍在高速演进,RISC-V 作为三大主流指令集架构中最灵活、最开放的一个,无疑最为适合 AI 时代的技术创新节奏。」