- 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
“在AI时代,我们必须全面提升先进存力。”
这就是平头哥半导体产品总监周冠锋,在中国存储界的盛会MemoryS 2025存储峰会上给出的关于AI存力发展的号召。
要知道,相比于各种形态的算力设施,存储设备在AI基础设施当中受到的关注是相对较少的——
显然,人们从未满足于算力的发展水平,但在聚光灯效应之下,存力发展更加不充分的现状却没有得到充分重视
实际上,如果把AI算力比作水力发电,那么存储就像水库,同样会对AI等各种大规模数据应用形成制约。
2018年成立的平头哥,凭借自研的SSD主控芯片镇岳510,已经成为存储设施建设的重要力量。
在这届峰会上,AI存力的发展建设成为了重要议题,在诸多与会者面前,平头哥展示出了AI存力的镇岳510方案。
不让存储拖AI的后腿
上线一年多的镇岳510,带来了商业化落地的新进展——
镇岳510已在阿里云的EBS规模化上线,大幅提升了整体系统的IOPS和吞吐带宽,更大幅优化IO延迟,相当于在同等资源条件下,帮助阿里云EBS客户承载更多访问量,间接实现降本增效。
更重要的是,镇岳510也让跑在阿里云EBS业务上的客户应用获得了更快的响应,从而赢得了更好的用户体验。
云计算场景之外,平头哥也为SSD整盘厂商提供了新的选择
例如忆恒创源的PBlaze7 7A40系列SSD产品,就基于镇岳510打造,成为业界首款具有100万IOPS的4K随机写性能的企业级SSD产品
得瑞领新刚刚发布的旗下首款PCIe 5.0高性能企业级NVMe SSD D8436/D8456系列,也利用镇岳510,相比上一代PCIe4.0产品实现了70%性能功耗比的提升
高IO吞吐、高传输带宽、低IO延……一系列特性都瞄准了存力发展不足给AI带来的制约。
那么,SSD对于AI应用来说都起到了什么样的关键作用呢?
运算、传输、存储……冯·诺依曼的计算机设计思想将AI基础设施的运转划分出了多个流程,既相对独立,各个环节之间又彼此关联
就以大模型为例,其训练过程中的GPU的利用率,直接受限于数据的供给速度。并且由于SSD的I/O延迟(50-100 μs)远高于DRAM延迟(50-100 ns),数据从存储到内存的传输,正是大模型训练数据供给速度的瓶颈。
到了推理阶段,很多行业大模型需要在极短时间内进行实施决策,也需要更高的数据访问速度和更低的数据时延。
此外,在AI大模型的训练和部署中会间歇性的大量写入Checkpoint检查点环节,存储设备需要具备所需的高写入吞吐量。
反过来看,在算力一定的情况下,提高存储设备的数据供给速度,就能拉高单位算力的利用效率,节省出算力时间。
上个月的DeepSeek开源周中,DeepSeek在最后一天开源了3FS文件系统,就是一个有效例证。3FS的目标就是把SSD的带宽利用率提升到极致,从而降低模型的训练总成本。
这还是在存储能力本身没有提高情况下的结果,如果存储设备自身的能力得到提升,那么对AI训练的降本增效更加有所裨益。并且相比于堆更多算力,对存力地提升也是一种更加经济的选择
所以,周冠锋认为,DeepSeek的3FS,一方面在刺激着AI从业者将存储设施升级到性能更高的PCIe 5.0接口设备,另一方面也在激励做存力的厂商进一步提高其产品的性能
也就是说,DeepSeek将作为催化剂,同时从需求和供给两侧,推动改善存力设备相对于算力发展的不足。更为有利的是,DeepSeek这个“催化剂”带来的这波新机遇,刚好贴合了SSD行业固有的演进节奏
周冠锋介绍,结合SSD行业固有的节奏,以及服务器、CPU他们的演进节奏,2025年会是PCIe 5服务器的大规模上线的崛起之年。这样的节奏,刚好匹配了基于镇岳510的SSD大规模上线的节奏
实际上,SSD是一个长周期行业,镇岳510早在2021年开始立项,当时就定下了PCIe 5的接口方案,让镇岳510在产品上市之后刚好匹配市场需求。这对从业者的前瞻性视野和对行业规律的精准把握,无疑都具有极高的要求。
而现在,镇岳510在阿里云EBS的上线,以及合作伙伴整盘产品的推出,已经证明了平头哥的这个选择,给镇岳510带来了成功。
当然,如果说前瞻性的视野为平头哥找到了成功的方向,那么还需要有足够的驱动力,才能走向成功。
这个驱动力,无疑就是技术。
存储主控的“六边形战士”
在镇岳510的研发过程中,平头哥进行了芯片架构和算法的全面创新。
镇岳510采用平头哥自研紧耦合芯片架构,能够适应AI等高性能应用场景。
它可以对SSD任务进行高度抽象,将表项管理、队列管理、Buffer管理等可固化任务硬化为加速算子,以提升性能,地址分配、错误处理等FTL关键任务则运行于CPU,以保持灵活性。
镇岳510每秒可处理高达340万次IO,相当于1万块高性能机械硬盘(HDD)的性能总和,数据带宽达到了14GByte/s
同时镇岳510还支持最新的PCle 5.0主机接口以及DDR5.0内存接口,进一步提升了芯片的数据吞吐速率。
延时上,镇岳510实现了4μs的超低时延,比业界主流降低30%以上;在阿里云EBS上的实测结果也表明,镇岳510将读写混合99.99%长尾延时降低了92%。
这得益于平头哥创新的IO自动化处理机制,将前端IO的解析与处理交由专用硬件模块自动完成,也得益于芯片的实现了IO/SYS/GC全链路隔离,极大地降低这些任务之间的相互干扰。
此外,平头哥也提前预见AI的发展会对IO模型带来的差异,采取了灵活性的设计,使得一年多之后的今天仍然能够适配已经今非昔比的AI场景,让AI发展不再受制于先进存力的短缺。
在准确率上,镇岳510实现了低至10^-18的UBER(不可修复的错误比特率),相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败,比业内标杆领先了一个数量级。
因为在算法层面,镇岳510采用了平头哥自研的高性能LDPC(奇偶校验码)纠错算法,编码效率逼近香农极限,同时还利用TappingSet消除算法,消除工作过程中产生的译码环,从而将ErrorFloor降低一个数量级。
平头哥还自研了闪存电压预测算法,采取抛物线拟合方式,在各种闪存的不同工况、寿命、温度等条件下,准确预测闪存电压漂移,进一步降低LDPC解码器的输入误码率。
另外,镇岳510也更加节能,每瓦功耗可提供42万笔的IO访问
以一个部署了10万块SSD的数据中心为例,相比目前主流的PCIe 4.0 SSD,镇岳510在相同的性能下,仅主控芯片即每年节省260万度电,相当于2.6万块100度汽车电池的总能量。并且,选择更加节能的存储芯片,不仅是出于电力成本或环境保护
算力设备进步的同时,功耗和发热也大幅增加,在算力设别拥有绝对话语权的背景之下,有限的散热能力也会被优先分配给算力设备,使得存力设备不得不在功耗上做出升级。
劈开行业应用的存力枷锁
平头哥拥有更多基础设施、应用场景,可通过阿里云业务对其产品进行实际验证。在验证取得成功之后,平头哥也希望推动存力生态建设,拓展行业合作,将先进存力带到更多应用场景。
- 比如在金融行业,一个微小的错误就有可能带来不可挽回的损失,因而可靠、安全是最重要的指标;
- 在智能电力调度当中,需要根据情况进行实时决策研判,低延时就成了最关键的考量;
- 还有在搜索行业,并发量大又成了一个典型特征,给IOPS带来了更大的需求;
- 除此之外,在不同行业间,甚至行业内部,对成本的把控同样是要考虑的问题……
所以,平头哥把镇岳510做成了集容量、时延、成本、能效、可靠和带宽于一体的“六边形战士”,在硬件上对每个行业的不同需求都能够提供保障。
结合镇岳510的灵活性设计,就可以再根据行业特点,通过不同的固件软件对行业看中的最关键因素进行专门化增强,从而游刃有余地走向千行百业
总之,平头哥凭借着全面的技术和算法创新,突破了各行各业先进存力发展的瓶颈,未来将全面加速创新。
不难看出,平头哥在先进存力上,展现出了十足的野望——
劈开行业应用的存力枷锁,将先进存力推向百业千行
时间上,平头哥赶上了存储设备迭代与AI在千行百业的广泛落地的双重机遇;资源方面,平头哥的阿里背景也给其提供了坚实的保障;
再看平头哥自身,也对存力发展的规律有着全面的把握和前瞻性的眼光,并同时在软硬件上不断创新;天时地利人和之下,平头哥立志要成为这一波存力设备升级换代潮当中的引领者。
低调的平头哥,这次注定要高调地将先进存力SSD这块短板补上。