AI服务器供应链动态周报:GPU结构性紧缺持续,液冷服务器出货量激增
本期AI服务器供应链动态周报聚焦于近期GPU供需格局的微妙变化以及全球服务器出货量的最新态势。随着大模型参数量突破万亿级别,算力集群的建设需求依然居高不下,但供应链端正呈现出从“绝对短缺”向“结构性错配”演化的新特征。
GPU供应动态:HBM成核心卡点,特供版芯片供需失衡
本周,GPU供应端最显著的特征是“结构性紧缺”加剧。NVIDIA旗舰级GPU(如H100/H200)的交期虽较年初有所缩短,但整体仍维持在8-12周的高位。当前制约高端GPU产能的核心瓶颈已从核心逻辑代工(台积电CoWoS封装)逐步向HBM(高带宽内存)转移。
- HBM3e产能吃紧:随着B200/GB200架构的发布临近,新一代HBM3e的良率和产能爬坡成为业界焦点。SK海力士与三星的HBM产能已被NVIDIA包揽至2025年Q1,这直接限制了H200及下一代Blackwell架构GPU的放量速度。
- 中国市场特供版供需失衡:受美国出口管制新规影响,NVIDIA H20及L20等“特供版”GPU成为中国大陆市场的绝对主力。本周渠道反馈,H20的订单排队周期已拉长至12-16周。国内互联网大厂及智算中心对合规算力的囤积意愿强烈,导致H20在渠道端出现溢价现象,部分现货价格较官方建议零售价高出15%-20%。
- AMD MI300系列渗透率提升:在非中国市场,AMD MI300X凭借更高的HBM容量优势,正在获取更多CSP(云服务提供商)的订单,这在一定程度上缓解了部分客户对NVIDIA算力的单一依赖,但整体供应量仍受限于台积电的先进封装产能分配。
服务器出货量态势:ODM满产,液冷渗透率突破拐点
在GPU供应逐步边际改善的背景下,AI服务器整机出货量在第三季度末迎来显著拉升。四大OEM/ODM(广达、富士康、纬创、超微)的AI服务器产线均处于满负荷运转状态。
- 全球出货量环比激增:据供应链调研数据,本季度全球AI服务器(搭载加速卡)出货量环比增长超25%。其中,搭载8卡GPU的顶级算力节点(如HGX架构)仍是出货主力,占总AI服务器出货量的60%以上。
- 液冷服务器迎来爆发:随着单机柜功耗突破100kW甚至向120kW迈进,传统风冷已触及散热物理极限。本周供应链反馈,CSP大厂在新招标项目中,几乎100%要求液冷(冷板式液冷为主,浸没式为辅)方案。液冷AI服务器的出货占比在近一个月内从20%迅速攀升至35%左右,CDU(冷量分配单元)及快接头等液冷零部件成为供应链新的产能瓶颈。
- 通用服务器触底反弹:值得关注的是,在AI服务器狂飙的同时,沉寂近两年的通用型服务器(General Purpose Server)出货量出现触底回暖迹象。企业级IT支出在经历漫长的消化期后开始重启,Intel Sapphire Rapids / Emerald Rapids及AMD Genoa平台的需求温和复苏,为渠道商带来边际改善。
渠道与生态观察:网络与电力成为新瓶颈,交付模式转变
在整机交付层面,供应链正面临从“单机交付”向“集群交付”的范式转变,这也催生了新的渠道动态:
- 网络设备供应吃紧:AI集群的扩展不再仅受限于GPU,东西向流量的大幅增加使得InfiniBand交换机(如NVIDIA Quantum-2)及高速以太网交换机(400G/800G)出现紧缺。部分渠道商反映,配套的光模块(800G SR8/DR8)交期甚至超过了GPU,成为智算中心按期上线的绊脚石。
- 机柜级交付(Rack-scale)成主流:CSP客户越来越倾向于采购整柜交付的解决方案(如NVIDIA GB200 NVL72),这要求ODM厂商具备更强的系统级集成能力。对渠道商而言,传统的“攒机”或零散部件分销模式正在失效,资金壁垒与技术支持门槛大幅提高。
- 电力基础设施前置:多个在建智算中心项目遭遇“有设备无电力”的尴尬。供应链端已开始将UPS、高压直流电源及配电柜的备货周期前置,渠道商需密切关注地方电网的扩容进度,以避免“算力等电力”的交付延期。
后市展望与渠道建议
展望未来四周,NVIDIA H200将开始小批量交付,B200的试产线也将陆续跑通,但大规模放量仍需等待2025年Q1。国内H20的紧缺态势在短期难以根本逆转。
对渠道及运维伙伴的建议:
- 备货策略调整:在H20等特供芯片溢价严重的当下,需警惕过度囤积带来的库存贬值风险,建议采用“紧平衡”策略,锁定终端订单后再向上游拿货。
- 能力向“液冷与网络”延伸:AI服务器的售后运维正发生质变,液冷系统的漏液监测、流体维护以及无损网络调优将成为高附加值服务,渠道商应提前布局相关技术团队。
- 关注国产替代节奏:国内腾910B等国产算力芯片的生态成熟度正在快速提升,在信创及部分智算项目中占比扩大,渠道商应积极获取国产化算力集群的集成与交付资质。