随着大模型参数量向万亿级迈进,生成式AI对算力的需求呈现出指数级增长态势。传统通用数据中心已难以满足大模型训练带来的高并发、高吞吐与低延时需求,智算中心(AIDC)作为AI时代的新型基础设施,正成为各地政府与科技巨头竞相布局的核心阵地。本文将从区域布局、技术架构、运维演进及渠道生态四个维度,全面梳理当前AI基建项目的最新进展与智算中心建设动态。
在“东数西算”工程的持续推进下,我国智算中心建设已从“单点突击”迈向“集群协同”的新阶段。目前,京津冀、长三角、粤港澳大湾区以及成渝等算力枢纽节点,均已在建或投运万卡级智算集群。
值得注意的是,智算中心的选址逻辑正在发生微调。除了追随“西部绿电+低成本”的布局外,为了降低跨域数据传输的延时风险,靠近AI研发一线的“近场智算”项目同样火热。北京、上海、深圳等地纷纷出台智算中心补贴政策,推动城市级智算中心落地,以保障本地政企大模型训练的数据安全与网络低延时。此外,“算力并网”成为新趋势,多地正尝试将分散的智算资源接入统一算力调度平台,实现跨区域算力的智能路由与弹性伸缩。
智算中心并非传统IDC的简单升级,而是从底层芯片到上层网络的全栈重构。
1. 异构算力与高速互联成为标配
当前智算中心建设已全面进入“万卡集群”时代。为了突破单一GPU的算力瓶颈,基于GPU+NPU+CPU的异构计算架构被广泛采用。在网络侧,RDMA(RoCE v2或InfiniBand)网络已成标配,以消除存储与计算节点间的通信阻塞;同时,400G/800G光模块与无损以太网技术的结合,正在大幅提升集群的集合通信效率,降低大模型训练的“木桶效应”。
2. 高密机房倒逼液冷技术规模化落地
传统风冷机柜单点功率通常在8-10kW,而搭载最新AI加速卡的智算机柜功率密度动辄超过30kW,甚至逼近100kW。这使得液冷从“可选项”变为“必选项”。当前新建的智算中心项目,冷板式液冷凭借改造门槛低、生态成熟的优势,占据了市场主流;而浸没式液冷则在部分极限高密场景下开始试点。通过液冷与AI智能温控系统的结合,新建智算中心的PUE(电能利用效率)普遍被压降至1.15甚至1.1以下,大幅降低了AI计算的碳排放。
万卡规模的智算中心对运维(O&M)提出了前所未有的挑战,传统基于人工的运维模式彻底失效。
1. 断点续训与高可用保障
在万卡集群中,单点硬件故障是常态。一颗GPU的损坏可能导致整个训练任务中断数小时甚至数天。因此,智算中心运维的核心指标从“设备在线率”转向了“训练任务有效率”。当前,先进的智算中心已普遍引入全局故障自动感知与隔离机制,结合快照与断点续训技术,实现分钟级业务恢复。
2. AIOps赋能智能运维
面对海量监控指标,基于大模型的AIOps(智能运维)正在智算中心落地。通过训练专用的运维大模型,系统可实现对网络拥塞的预测性路由、对硬盘慢盘的提前预警以及对制冷系统的动态自适应调节,真正做到“用AI管理AI基建”。
智算中心的爆发,正在重塑IT渠道与供应链的利润格局。
1. 算力服务化(CaaS)崛起
受限于高昂的建造成本与GPU供应波动,越来越多的企业倾向于“按需购买算力”而非自建集群。这催生了算力运营商的崛起,渠道商的角色正从传统的“硬件分销商”向“算力服务商”转型,通过提供模型微调、数据清洗等增值服务获取更高利润。
2. 国产算力生态的破局点
在供应链不确定性背景下,国产AI芯片及超算网络迎来了规模化商用的黄金窗口。各地智算中心项目在招标时,均设定了明确的国产化算力比例。对于渠道伙伴而言,深度绑定国产头部芯片厂商,积累异构算力适配与集群调优能力,将成为下一阶段的核心竞争壁垒。
AI基建正处在大规模投入的爆发期,智算中心不仅是算力的生产工厂,更是AI时代的数据枢纽。从“建得好”到“算得好”,从硬件堆砌到软硬协同,智算中心的建设正在走向精细化与生态化。对于运维人员与渠道伙伴而言,深刻理解异构计算、液冷架构与算力调度的底层逻辑,方能在这一轮席卷全球的AI基建狂飙中抢占先机。