报告周期: 2023年10月第3周(示例周期)
核心摘要: 本周AI服务器供应链呈现“需求持续亢奋、产能结构性调整”的态势。H200进入规模化交付阶段,H100交期有所缓解;而下一代Blackwell架构(B200/GB200)的预热正在引发供应链对先进封装和液冷散热的重新布局。CSP(云服务提供商)巨头依然占据超80%的算力采购份额,但企业级市场的渠道拿货难度依然较高。
本周GPU供应池的结构性变化显著,核心焦点从H100向H200及下一代B系列过渡:
随着台积电(TSMC)CoWoS产能的持续释放,H100的交期已从此前的高峰期4-5个月缩短至2-3个月左右,渠道现货溢价明显回落。与此同时,H200开始进入规模化交付。由于H200搭载141GB HBM3e内存,在推理和大规模模型训练上的性价比优势明显,CSP大厂正将采购重心全面转向H200,导致H200的初始交期依然长达3-4个月。
当前GPU供应的瓶颈已从核心逻辑代工转移至HBM产能。SK海力士作为H200 HBM3e的主力供应商,产能已满载;美光虽已通过验证并开始小批量交付,但良率爬坡仍需时间;三星的HBM3e仍在英伟达最终验证阶段。预计HBM3e的供需失衡将至少持续至2025年Q1。
针对B200及GB200,台积电正加速推进CoWoS-L产能扩充。由于B系列芯片尺寸逼近光刻机掩膜版极限,对无源中介层和局部互联的要求呈指数级上升,良率控制成为供应链本周热议的焦点。部分ODM厂商反馈,B200的工程样板交付已出现微幅延后,主要卡点在先进封装端的调试。
AI服务器出货量在本周保持环比增长,但产品形态正在发生深刻变革:
据供应链反馈,主流ODM(广达、纬创、富士康、英业达)Q3 AI服务器出货量环比增长超20%。全年全球AI服务器出货量预期已上修至近170万台。其中,Meta、微软、谷歌三大CSP的采购量占据了总出货量的近六成。
随着NVL72/NVL36架构的推出,AI服务器交付模式正加速从单机8卡向72卡整机柜转变。这一转变极大拉高了ODM的组装复杂度与附加值。本周广达与富士康均表示,GB200整机柜(Rack-scale)的测试与组装需要极高的机电与热力协同能力,传统服务器产线必须进行深度改造,这导致单条产线的资本支出增加了3倍以上。
随着单机柜功耗逼近100kW甚至120kW,冷板式液冷已成为AI服务器标配。本周供应链显示,液冷模块(冷板、快接头、CDU)的订单能见度已至2025年中。由于液冷系统存在漏水毁损GPU的极高风险,CSP大厂对液冷供应商的认证周期大幅拉长,导致头部散热大厂(如奇、双鸿)的产能被严重占用,二线厂商短期内难以切入核心供应链。
在渠道市场,H100 8卡准系统的现货价格已回落至23-25万美元区间,但H200及H20(国内合规版)依然紧俏。国内市场方面,H20由于是当前能获取的最强合规算力,需求极为旺盛,交期仍长达8-12周。终端中小企业客户通过传统渠道直接拿货难度依然极大,多数算力需求被迫转向算力租赁市场。
在AI服务器市场,白牌(White-box)凭借深度定制化能力,拿下了CSP超70%的订单。但本周供应链传出信号,部分CSP出于供应链韧性及售后运维考量,开始增加品牌厂(如戴尔、联想、超微)的采购比例。品牌厂在液冷维保、全球部署及现场服务上的优势,正在中大型企业级市场转化为订单。
谷歌TPU v5p、AWS Trainium2的出货量正在稳步提升。虽然短期内无法撼动英伟达的统治地位,但CSP自研芯片的规模化部署,已实质性地对英伟达GPU的潜在采购量形成了对冲,这为供应链中的通用型AI加速卡代工商带来了新的增量业务。