报告周期: 2023年X月X日 - X月X日
核心摘要: 本周AI服务器供应链呈现“算力依赖先进封装,交付受制液冷产能”的显著特征。GPU核心芯片供应略有松动,但HBM3e及CoWoS封装产能成为Nvidia B系列放量最大瓶颈;同时,随着单机柜功率密度突破100kW,液冷散热组件(CDU/快接头)交期拉长,成为制约整机柜交付的新卡点。此外,云服务商(CSP)自研AI芯片加速流片,正在重塑台积电及ODM的产能分配逻辑。
本周,Nvidia H20及H200系列在国内渠道的现货溢价有所回落,从峰值回落约10%-15%,但整体仍处于溢价状态。核心动态聚焦于下一代B200/GB200的备货。目前B系列采用的CoWoS-L封装技术良率仍在爬坡阶段,台积电虽加速扩充CoWoS产能,但产能释放速度仍落后于英伟达的订单增长预期。供应链反馈,当前B系列从晶圆到整机的交付周期仍长达52-56周,CoWoS产能已成为AI服务器出货量的绝对“节拍器”。
HBM供需失衡在本周进一步加剧。SK海力士HBM3e产能已被英伟达全额锁定,导致AMD MI300系列及部分CSP自研芯片面临HBM配额不足的窘境。三星与美光虽在加速HBM3e验证与量产,但良率爬坡尚需时间。供应链消息指出,HBM3e 12-Hi堆叠产品的测试周期与良率挑战远超预期,预计到Q4才能实现规模化交付。HBM短缺正直接限制部分ODM厂商的整机排产计划。
随着GB200 NVL72机架架构的推广,供应链对高速互连的需求发生结构性变化。本周800G光模块(特别是SR8与DR8方案)订单激增,中际旭创等头部厂商产能满载,交期延长至16周以上。同时,GB200机柜内部大量采用铜缆(铜搭接)进行GPU间高速通信,安费诺等连接器供应商的铜缆背板订单排期已至明年中,铜互连方案在短距离AI集群中的渗透率正快速提升。
AI服务器单节点功耗突破1000W(如B200 TDP达1000W),风冷已彻底失效,液冷从“可选项”变为“必选项”。本周供应链预警显示,冷板及CDU(冷量分配单元)的交付周期已从8周拉长至12-14周。尤为严重的是,液冷系统核心组件UQD(快速接头)因专利壁垒与产能集中,出现严重短缺,部分整机厂因缺UQD导致机柜无法出厂。冷板漏液风险也使得厂商对品质验证周期拉长,进一步抑制了短期交付速率。
富士康、广达、纬创等头部代工厂商当前产能已被北美Top 4 CSP(微软、Meta、谷歌、亚马逊)的定制化订单完全占据。由于CSP订单具备高确定性且规模庞大,ODM在产线分配上优先保障大客户,导致通用型AI服务器(如8卡H20准系统)在渠道市场的供货依然紧张,国内政企及中小型渠道商拿货难度未明显改善。
谷歌TPU v5p、AWS Trainium2及微软Maia 100本周均传来加大流片与备货力度的消息。CSP自研芯片均采用台积电5nm/3nm工艺结合CoWoS封装,这直接与Nvidia/AMD争夺先进封装产能。自研芯片的崛起正在改变供应链博弈:CSP通过自研掌握底层定义权,迫使ODM提供更灵活的代工服务(OCP架构),传统品牌服务器厂商在AI时代的溢价能力被进一步削弱。
受美国出口管制新规影响,国内市场正在适应H20为核心的算力底座。本周渠道端反馈,国内互联网大厂对H20的采购策略已从“试探性采购”转向“规模化部署”,通过集群架构优化弥补单卡算力劣势。同时,华为腾910B等国产算力在金融、运营商等信创市场的渗透率显著提升,国产AI服务器供应链(如鲲鹏/腾主板及整机)本土化率已超90%。
风险提示: 台积电CoWoS良率恢复不及预期;地缘政治导致先进制程设备交付受阻;液冷系统规模化部署后的漏液率对业务连续性的冲击。