AI服务器供应链动态周报(2024年第XX期)
核心摘要
本周AI服务器供应链整体呈现“需求持续强劲,结构性紧缺缓解与新增瓶颈并存”的态势。Nvidia Blackwell架构GPU进入小批量交付阶段,带动HBM3e及CoWoS产能爬坡;液冷基础设施需求激增,导致冷门部件(如快接头UQD)出现供给缺口;此外,整机柜交付模式全面普及,正在重塑传统服务器渠道的生态格局。
一、 核心芯片与计算平台:Blackwell交付启动,H200交期缩短
本周,Nvidia GB200/GB200 NVL72机柜系统开始向核心CSP客户进行首批交付。受此带动,供应链上游呈现以下动态:
- H200交期改善:随着H100库存逐步出清及H200产能爬坡,H200核心板卡的交期从此前的16-20周缩短至12-14周。渠道端H200现货溢价有所回落,但整体仍处于紧平衡状态。
- AMD MI300X渗透率提升:在北美及国内部分云厂商中,AMD MI300X的采购比例出现微幅上调。主要驱动力来自客户对供应链多元化及成本优化的诉求,相关OCP架构主板订单量本周环比增长约5%。
- 国产算力替代加速:受外部管制预期影响,国内智算中心建设进一步向国产芯片倾斜。腾910B及海光深算系列服务器本周订单充沛,国产AI服务器主板PCB及配套电源模块需求旺盛。
二、 存储与先进封装:HBM3e产能爬坡,CoWoS良率成关键
算力瓶颈的转移使得存储与封装依然是供应链最紧张的一环:
- HBM3e供需缺口仍存:尽管SK海力士、三星及美光均在加速HBM3e产能扩充,但当前产能仍被Nvidia及核心CSP长协锁定。本周市场反馈,配对HBM3e的GPU供应相对充足,但裸片级HBM3e对中小客户仍极难获取,预计此状态将延续至2025年Q1。
- CoWoS产能扩充与良率博弈:TSMC持续扩充CoWoS-L与CoWoS-S产能,目标年底前月产能提升至4万片以上。但本周业界反馈,Blackwell架构GPU由于芯片面积增大及RDL层布线复杂度提升,CoWoS良率爬坡速度略低于预期,这在一定程度上影响了首批GB200的出货规模。
三、 网络与互联:800G光模块放量,液冷线缆成新痛点
AI集群规模从千卡向万卡演进,对网络与互联提出了严苛要求:
- 800G光模块进入交付高峰:本周国内主流光模块厂商800G SR8/DR8出货量显著提升。硅光方案由于在成本和功耗上的优势,在CSP定制化订单中占比提升。此外,1.6T光模块的送样验证已在头部客户中密集展开。
- 液冷线缆(冷板式Cable)供应告急:随着高密度整机柜(单机柜功耗超100kW)成为标配,冷板式液冷机柜内部的高速铜缆需具备耐液浸没或防冷凝特性。本周供应链反馈,具备液冷环境可靠性认证的高速线缆组件(尤其是MCIO接口)出现交期延长,部分长达20周以上,成为除GPU外的第二大交付瓶颈。
四、 散热与基础设施:液冷全链条吃紧,CDU及UQD接头面临缺货
散热已从“选配”变为AI服务器的“必配”,基础设施供应链正在经历阵痛:
- 冷板与快接头(UQD)紧缺:由于全球液冷系统需求爆发,UScale-Q(UQD)快接头出现严重产能瓶颈。该部件对公差要求极高,目前全球核心供应商(如史陶比尔、派克汉尼汾)产能已排至年底。部分国内服务器厂商被迫寻求国产替代方案,但兼容性与漏液风险验证仍需时间。
- CDU(冷量分配单元)交付承压:机柜级液冷普及使得CDU需求激增。本周多家数据中心EPC及集成商反馈,大功率CDU(单台制冷量100kW+)的交期已从常规的8周拉长至14-16周,严重拖慢了部分智算中心的上线节奏。
五、 渠道与生态:整机柜交付重塑渠道,白牌与代工界限模糊
供应链形态的变化正深刻影响IT渠道与运维生态:
- 整机柜模式挤压传统渠道:Nvidia MGX及OCP标准推进下,AI服务器以“整机柜”形式交付的比例超过70%。传统依赖“准系统+渠道组装”的分销模式空间被大幅压缩。ODM直供CSP的比例上升,品牌商(如Dell、Lenovo)正通过提供全栈液冷集成与微模块解决方案来维系渠道附加值。
- 维保与运维成本前置:本周多家MSP(托管服务提供商)指出,液冷AI服务器的RMA(退货授权)流程远比风冷复杂。冷板漏液定责、盲插接头损耗及二次排液等问题,导致渠道商在提供SLA保障时极为谨慎,推动运维服务合同价格环比上涨约10%。
下周展望
下周需密切关注TSMC法说会关于CoWoS产能利用率的最新指引,这将是判定2024年底至2025年初AI服务器实际出货量的核心风向标。同时,国内需关注智算中心建设专项债发放进度,这将直接决定下半年国产AI服务器渠道的备货力度。运维端,建议集成商提前锁定UQD接头及CDU等长交期物料,避免基础设施拖累算力上线。