不同于看不见的云计算,数据中心作为背后支撑云与AI大模型训练的底层基础设施,是一项重资产投入,其生命周期往往是按十年量级来衡量的。这也意味着一旦提前布局不当,或者跟不上当下应用市场的需求,对于建设方而言,不敢求回报,就连投资成本和后续的运营成本都可能无法收回。从运营商到独立的第三方IDC厂商,以及互联网/ICT企业在内,作为数据中心的主要参与者,都曾并正在经历类似问题。

尽管因近些年受政策和市场需求(包括技术门槛的进一步降低)等多方面因素影响而时有波动,但国内数据中心的建设热情不减。需求端,算力尤其是AI算力缺口依然很大,但Scale out芯片互联等技术方案带来的算力利用率不高也是事实。因而数据中心建设想要尽可能跟上企业客户的算力需求,不仅要见效快,还能灵活可扩容。

政策端,其底色一直是朝着绿色低碳发展。早在2016年印发的《“十三五”国家信息化规划》就提出,增加IT项目投资及逐步控制新建数据中心的PUE值(2018年不高于1.5,2020年不高于1.4)。2021年至今,北京、广州等多地都相继出台了数据中心能耗保障的相关要求。总体上,对数据中心的PUE等能耗指标的考核不断严格。

同时,全国多地政策鼓励数据中心建设采用预制模块化等装配式建筑。一些国家级的绿色数据中心已经在积极采用液冷、高压直流等高效冷却技术产品、智能化运维管理技术及模块化系统解决方案等。

因此,建设者们一直在推动数据中心预制化的解决方案,这也符合数据中心预制化、模块化的趋势。只不过,随着时代的变迁,预制化数据中心从通用算力+风冷散热方案为主体的上一代,开始逐渐转变到AI算力等多元算力+液冷散热方案为主体的AIDC模式。

钛媒体近日跟随浪潮信息走进了其位于济南的元脑“算力工厂”。该智算中心是浪潮信息预制化AIDC解决方案的新样板,支撑着在全球服务器大规模测试、客户POC测试、大模型开发与应用、智能化转型等业务场景的算力需求。

“赛博乐高”怎么搭

预制化数据中心,即将设备模块在工厂就预先集成到集装箱中,并完成测试。到达现场后,这些集装箱就像“乐高”一样被快速组装起来,形成一个完整的数据中心。其优势在于,与土建解耦,不受现场条件限制,所有机电设备在工厂预集成、预测试,接入市电、网络和水源即可独立运行,预制装配率高,且集成工作与现场土建工作并行,缩短建设工期。

同时,根据功能的不同,集装箱可被分为IT、电力、集成冷站、集成冷源、办公、走廊、电梯、楼梯等八种功能箱体,可根据不同场景、规模灵活组合,并按照功率区段分区部署,匹配不同算力应用场景。对于客户而言,初期根据资金水平和算力需求按需部署,后期可根据算力设备,匹配数据中心模式在线柔性升级扩容。在支持水平扩容的同时,可实现竖向按需扩容,最高可扩容至5层。

此外,当前数据中心建设必须将绿色节能考虑在内。过去十年,CPU热设计功率(TDP)几乎翻了一番,而GPU热设计功耗已从2008年的不足200W到目前的1000W,单机柜功率密度已从5kW攀升至100kW以上。但Scale Up所带来的部署密度提升是实现Scale Out规模持续扩张的前提和基础,而液冷、智能温控等先进制冷技术则会解决Scale Up引发的散热问题,这意味着,占地大、能耗高的数百兆瓦数据中心会进一步压缩到更加紧凑、更加节能。

元脑算力工厂正是基于这一思路展开。

当前一期建设规模上,已实现119台集装箱,419个机柜的一层部署,总容量达到10MW,使用年限可达50年。

从规划到集装箱工厂生产预制、地基建设、吊装、调试等,总共耗时9个月完成交付,刨去前期规划时间,实际建成投运仅用时120天。


钛媒体注意到,在选择用集装箱投资建设之初,浪潮信息内部就做了深入的论证和预想。

“其实在国内,10MW以上规模的智算中心并不多。这意味着采用集装箱结构一旦上了规模,几百个进行组装实现互联互通,对技术要求是非常高的。同时,和楼宇建设相比,集装箱式不仅可以短时间内构建这样一个大规模集群,同时也可以为未来基建节省更多的投资。我们认为预制化是最能满足AI时代算力快速部署的需求。”浪潮信息服务器产品线副总经理李金波指出。

除了在基建层面实现预制化外,元脑算力工厂全面遵循了“高密+绿色”的未来智算中心设计理念,算力节点大量使用高密智算算力仓,将风冷机柜的负载上限提升至50kW,液冷机柜的负载上限高达130kW。

为解决高密度部署带来的散热和能耗问题,浪潮信息还将液冷、光伏、储能、余热回收等多种技术结合,并采用智能管理平台实现IT和机房设备的控制联动,PUE可降至1.1以下。

如光伏发电技术将太阳能转换为电能,为智算中心提供清洁的电力来源;储能技术则允许智算中心在电力需求低时储存能量,并在高峰时段使用储存的能量,平衡电网负荷并提高能源利用效率;集成冷站采用变频冷机,冬季和过渡季节实现自然冷却,15℃/21℃中温冷水制冷,整机能效比≥5.5;结合余热利用技术,冬季可覆盖办公区供暖。

另外,集装箱采用了预制化钢结构建筑,材料回收率超80%,施工现场无粉尘噪音,建筑垃圾少,进一步实现绿色环保。

从成效上看,可总结为三点:一是“快”,将同等规模智算中心的建设周期从18个月缩减至4个月,工期缩短了近80%;二是“弹性可扩容”,可根据业务规模分期高效进行水平及竖向扩容,有效节省前期投入成本;三是“绿色节能”,全年节省电费近2亿元,大幅降低运营成本。据测算,4个集装箱、千卡规模算力,每年可节省电费400万元。

智算中心只有最适合的方案

如今,面对复杂多变的市场需求和客户挑战,如何快速构建绿色高效智算中心,成为了众多企业客户共同面临的难题。预制化智算中心的优势在于其能够大幅缩短交付周期。

但追求预制化的智算中心也同样遵循“没有最好的,只有最适合的方案”,每个客户的业务场景、地理环境、能源政策等因素都各不相同。比如AIO(All-in-One)一体式、临建级(十个集装箱以内)、建筑级(永久性)三种预制化AIDC建设形式,适用于不同客户诉求。对于算力基础设施厂商而言,只有深入了解客户需求,才能为其真正符合其实际需求的解决方案。


图片来源@《2024算力工厂建设指南白皮书》

钛媒体注意到,此前也有不少算力基础设施厂商推出过预制化解决方案。在国内,也有不少结合了预制化模块化思路的数据中心建设成果。例如,阿里云于2016年2016年投产的张北数据中心一号、二号园区,由于该地区冬季气温低达-38°C,长达半年不能施工,同样借鉴了预制化的解决方案。

结合浪潮信息的实践经验来看,其解决方案已在互联网、金融、能源、教科研、汽车等行业落地,但更多是AIO或者临建式的预制化模式。也就是说,只需要数十个机柜,或者十个集装箱以内的多箱拼接就可满足需求,甚至不用地基。

“以高校为例,有时会有一些偶发性算力需求,比如受制于科研经费、场地空间等因素,智算中心规模较小,采用两三个集装箱即可拼接建成,使用十几年达到生命周期报废后,对高校在场地和投入上也不会有太大影响。再比如,在海外,考虑到初期建设成本问题,企业为快速上线应用,也可以采用这种方案。”李金波表示。

那么预制化AIDC是否短期内仍局限于一些特殊场景:比如自然条件苛刻的地区,传统数据中心难以快速铺开的海外市场,或者是偶发性的客户算力需求?

国际咨询机构ResearchAndMarkets近日发布的报告中指出,模块化数据中心(modular data center)市场预计将从2024年的299.3亿美元增长到2030年的794.9亿美元,预测期内的复合年增长率(CAGR)为17.7%。其中,模块化电源和冷却系统、预制IT模块和增强的自动化等关键进步,都在改变数据中心的设计和部署方式。

报告还指出,小型数据中心是模块化数据中心市场的一个重要细分市场,旨在满足客户对本地化计算能力日益增长的需求,同时优化空间和能源使用。一个关键优势是其靠近最终用户,从而减少延迟并提高边缘计算等应用的性能,同时配备先进的冷却解决方案,可提高能源效率并降低运营成本。

浪潮信息人工智能与高性能产品线副总经理张强认为,未来落地像云脑算力工厂一样的大规模预制化智算中心,是与液冷部署的规模相匹配的。

他进一步告诉钛媒体,“尽管这两年液冷开始不断被提及,但实际与风冷相比,其部署量还是比较低的比例。我们看到从2024年开始,AI服务器高功耗导致的对液冷部署的强烈需求,到2025年可能就是液冷上量的关键时期。这意味着原有的一批数据中心可能没办法适应新的算力场景了。”

追溯预制化的发展历程,也能够发现随着装配式建筑技术与模块化数据中心融合程度的加深,预制化数据中心呈现主体结构建筑化、空间及内外使用体验楼宇化、功能区域标准化等趋势,以适应高层级、多楼层、大规模集群的应用。这从此次走访元脑算力工厂的实体空间就能感知一二。预制化智算中心正走向建筑级应用。

不等AI需求来了才开始布局,而是在可以预见的未来,还要领先市场半步。(本文首发于钛媒体APP,作者 | 杨丽,编辑 | 盖虹达)

ad1 webp
ad2 webp
ad1 webp
ad2 webp