AI服务器供应链动态周报(2024年第42期):Blackwell产能爬坡在即,HBM与液冷成核心博弈点
核心摘要
本周AI服务器供应链延续高景气度,核心动态聚焦于Nvidia Blackwell架构芯片的产能爬坡进度、HBM3e内存的分配争夺,以及液冷基础设施的交付瓶颈。随着超大规模云厂商对机柜级交付的需求激增,ODM/OEM厂商正面临从“节点交付”向“整机柜交付”的系统性转型。此外,地缘政治因素对供应链的扰动仍在持续,合规审查进一步收紧。
一、 核心算力芯片与先进封装:Blackwell修复提速,CoWoS产能紧绷
本周供应链传出的核心利好是Nvidia Blackwell架构GPU(B200/GB200)的良率与产能正加速修复。此前因掩膜重制导致的延期问题已基本解决,台积电(TSMC)正全力提升CoWoS-L先进封装的良率。
- CoWoS产能争夺白热化:尽管台积电承诺年底前将CoWoS月产能提升至4万片以上,但面对B200庞大的芯片面积与复杂的封装需求,产能依然处于“秒空”状态。供应链消息显示,目前台积电的CoWoS产能分配高度集中于前两大云厂商(微软与Meta),其余客户拿卡周期仍长达36-52周。
- HBM3e成为新卡脖子环节:SK海力士依然是HBM3e的主力供应商,但12层堆叠(12-Hi)HBM3e的良率爬坡不及预期,导致单颗B200 GPU配套的HBM出现结构性短缺。三星的HBM3e虽然试图切入市场,但本周传闻其某批次产品在终端客户验证中因能效比未达标再次受挫,这进一步巩固了SK海力士的议价权,也拉长了AI服务器的整体交付周期。
二、 关键组件与网络互连:光模块与定制化网络需求激增
AI服务器从8卡向72卡(GB200 NVL72机柜)演进,对内部与外部互连网络提出了前所未有的要求。
- 1.6T光模块与铜缆并行爆发:随着单机柜功耗与算力密度的飙升,GB200机柜内部大量采用铜缆(铜背板连接)以降低功耗与延迟,而机柜间互联则全面转向1.6T光模块。本周国内光模块头部厂商反馈,1.6T单模硅光模块的交付周期已拉长至3-4个月,核心瓶颈在于DSP芯片与高功率EML光芯片的供应。
- 定制化网卡与DPU需求上修:标准以太网网卡难以满足大模型训练的无损网络需求。本周博通与Mellanox的定制化网络适配器订单可见度已延伸至2025年Q2。供应链端,200G SerDes PHY芯片的代工价格本周上涨约5%,反映出网络侧配套芯片的产能吃紧。
三、 散热与基础设施:液冷渗透率拐点已至,CDU交付承压
B200单颗GPU热设计功耗(TDP)突破1000W,GB200 NVL72单机柜功耗超120kW,传统风冷已彻底失效,冷板式液冷与浸没式液冷进入规模化部署期。
- 液冷零配件供不应求:本周供应链最显著的变化是冷板(Cold Plate)与快接头(UQD)的产能告急。由于快接头防漏液的高精密制造门槛,部分厂商的订单排期已排至明年Q1。任何漏液风险都会导致数百万美元的算力集群宕机,因此云厂商在认证新供应商时极为谨慎。
- CDU(冷量分配单元)成为机柜交付新瓶颈:CDU作为液冷机柜的“心脏”,其核心水泵与换热器目前主要由欧美日系厂商主导。本周国内多家ODM厂商反馈,高冗余度CDU的交期已从常规的8周延长至14周,直接制约了整机柜的出海与交付节奏。
四、 ODM/OEM与渠道动态:从服务器到“算力工厂”的交付模式重构
AI服务器的交付逻辑正在发生根本性改变,供应链的利润分配也随之重构。
- ODM毛利结构性改善:以往通用服务器代工毛利仅3%-5%,而本周广达、纬创、富士康等头部代工厂在法说会上明确指出,AI服务器代工由于涉及主板定制化设计、液冷集成与整机柜出厂测试(Rack-level testing),代工毛利可提升至7%-10%。纬创本周宣布其墨西哥工厂已具备GB200整机柜交付能力,以规避地缘关税风险。
- 白牌与品牌之争加剧:超大规模云厂商(CSP)更倾向于直接找ODM定制白牌服务器以降低TCO,而传统企业客户则依赖Dell、HPE等品牌商的售后与集成能力。本周Dell宣布其AI服务器积压订单已突破百亿美元,渠道端反馈,企业级客户对“交钥匙”算力集群的付费意愿显著增强。
五、 地缘政治与合规风险:中东与东南亚合规审查趋严
本周供应链的隐形扰动仍来自地缘合规。美国商务部工业与安全局(BIS)进一步收紧了对中东地区(如沙特、阿联酋)AI算力出口的审查力度,要求不仅审查最终用户,还需审查最终用途(防止模型被用于军事开发)。
- 转口贸易监控升级:部分东南亚地区(如马来西亚、新加坡)的数据中心建设本周被要求提供更详尽的算力用途报告。这导致原本计划通过东南亚转口的服务器订单出现延期,部分国内出海厂商的物流与清关成本本周环比上升约2%-3%。
- 特供版芯片进展:供应链确认,Nvidia针对中国市场的特供版AI芯片(如H20迭代款)正在按计划交付,但由于算力密度限制,其单机柜集群效率受限,国内互联网大厂对特供卡的采购策略已从“抢卡”转向“按需滚动下单”,更倾向于将资金投入至网络与存储优化上,以弥补单卡算力不足。
六、 下周展望与运维建议
- 价格波动预警:受HBM3e短缺及台积电代工涨价预期影响,预计下周起B200/GB200整机柜的渠道报价将出现2%-3%的上浮,建议有明确部署需求的客户提前锁定价格与交期。
- 运维端关注点:随着首批Blackwell架构集群即将在Q4交付,运维团队需提前介入。本周已有多家CSP报告现有数据中心机房屋顶承重与供电模块(PSU)无法直接匹配120kW级液冷机柜。建议渠道与运维方立即启动对老旧机房的电力扩容与CDU管路路由评估,避免“机等人”或“有柜无电”的窘境。
本报告数据基于供应链核心节点调研与公开信息梳理,仅供参考,不构成投资与采购建议。