随着大模型参数量从千亿向万亿级跃迁,AI算力需求正呈现指数级增长。2024年以来,国内AI基建项目全面提速,智算中心作为承载大模型训练与推理的物理底座,其建设动态直接反映了产业周期的演进。从“建中心”到“聚生态”,当前的智算中心建设正呈现出规模化、集约化、绿色化三大特征。本文将从建设进展、技术演进及运维渠道三个维度,对当前AI基建项目进展进行深度汇总与洞察。
当前,国内智算中心建设已形成国家枢纽节点与地方城市级项目双轮驱动的格局。
智算中心并非传统数据中心的简单升级,而是底层IT架构的全面重构,项目进展中折射出三大技术演进趋势。
大模型训练的痛点在于“算力孤岛”。当前基建项目已不再满足于千卡规模,向“万卡集群”迈进成为标配。为了打破单一芯片生态的壁垒,异构算力(如“GPU+NPU”或不同品牌GPU混池)建设成为新方向。多地新建智算中心在招标阶段便明确要求支持异构算力调度,以确保供应链安全与算力供给的韧性。
在万卡集群中,网络通信开销往往占据总训练时长的30%以上。因此,新建智算中心全面采用超高带宽(400G/800G)、超低时延的无损网络(InfiniBand或RoCEv2)。同时,“算网一体”概念落地,光电交换技术(OCS)开始试点,以降低大规模集群中的光电转换损耗,提升端到端数据吞吐量。
单机柜功率密度从传统的5-8kW飙升至今日的40kW甚至100kW以上,传统风冷已触及散热天花板。2024年新建的智算中心项目,几乎100%采用了液冷技术(以冷板式液冷为主,浸没式为辅)。液冷不仅将PUE降至1.15甚至更低,更是保证AI芯片在满载运行下不降频、延长硬件寿命的关键保障。
智算中心的狂飙突进,也给运维体系与渠道生态带来了前所未有的挑战与机遇。
万卡集群的故障率极高,单点硬件故障可能导致整个训练任务中断,断点续训的时间成本巨大。传统运维手段已无法应对,当前项目更看重AIOps(智能运维)的落地,包括毫秒级的故障隔离、网络拥塞的自动调优、以及训练任务的快速checkpoint恢复。此外,液冷管路的微渗漏监测与预防性维护,也成为运维团队的新课题。
对于渠道商而言,单纯倒卖AI服务器的利润空间正在被压缩。当前的价值高地正向“算力运营商”转移。优秀的集成商不仅需要提供硬件交付,更需要提供“算力+平台+算法”的交钥匙方案。例如,协助地方政府搭建MaaS(模型即服务)平台,对接上下游算力需求方与算法提供方;或提供异构算力池化软件,帮助客户提升GPU资源利用率。渠道的核心竞争力已从“资源获取能力”转变为“算力运营与调度能力”。
总体而言,国内AI基建项目正处在从“大干快上”向“精耕细作”的拐点。智算中心的建设进度不仅体现在机柜的数量与FLOPS的峰值,更体现在算力利用率、网络有效吞吐与绿色低碳水平。未来,随着国产AI芯片生态的成熟与算力并网技术的突破,智算中心将真正演变为像水电一样即取即用的“公共算力网”,而在这个过程中,具备全栈交付与智能运维能力的厂商,将成为最大的赢家。