巨人財經 - 專業科技行業財經媒體

AI算力新紀元:超節點架構引領光液冷供電芯片全維升級浪潮

   發布時間:2026-03-06 12:03 作者:孫雅

隨著人工智能模型參數規模突破萬億級門檻,傳統單芯片算力已難以支撐大模型訓練與推理需求。在此背景下,"超節點"架構正成為AI基礎設施演進的核心方向,通過將數百至數千顆算力芯片通過高速網絡互聯,構建出邏輯上的"超大型GPU",徹底突破單機性能瓶頸。

這一技術理念最早由英偉達提出,其核心在于采用Scale up縱向擴展模式替代傳統Scale out橫向擴展。以英偉達GB200 NVL72為例,該系統通過NVLink Switch將36個Grace CPU與72個Blackwell GPU整合,實現所有GPU點對點全互聯,總帶寬達130TB/s,有效解決了分布式訓練中的通信延遲問題。這種架構依賴專用互聯協議(如NVLink、UALink)和特定網絡拓撲(如胖樹結構),形成共享內存池的強大計算單元。

物理層面,超節點機柜整合了計算節點、交換節點、供電單元和散熱系統四大模塊。在ETH-X方案中,計算節點內置多GPU/CPU通過高速背板連接交換節點,后者承載全帶寬互聯任務。面對單機柜功耗突破百千瓦的挑戰,供電系統采用Power shelf配合Busbar母線,支持N+2冗余設計;散熱則轉向液冷主導模式,液冷占比超80%,GPU、CPU及交換芯片均需配置冷板模組,推動液冷管路、快接頭等配套產業發展。

國產陣營正通過超節點架構實現彎道超車。華為CloudMatrix 384系統集成192顆鯤鵬CPU與384顆昇騰910C芯片,采用自研UB網絡互聯。盡管單顆910C芯片BF16性能僅為GB200模組的三分之一,但集群整體性能達NVL72的1.7倍,內存容量和帶寬分別提升3.6倍和2.1倍。更大規模的Atlas 950支持8192張昇騰芯片全光連接,互聯帶寬達16.3PB/s,總算力是英偉達NVL144的6.7倍。

產業鏈迎來結構性變革機遇。光通信領域,高速光模塊需求激增;交換芯片市場,國產廠商加速研發自研產品;液冷散熱從可選配置變為必需方案,冷板式液冷滲透率快速提升;供電系統對高功率電源、高壓UPS需求旺盛。銅連接、PCB、服務器電源等環節因高密度部署迎來技術迭代。中興通訊、紫光股份、浪潮信息等企業已推出相關產品,如紫光H3C UniPoD S80000實現64卡柜內全互聯,單卡推理效率提升80%。

技術標準正從封閉走向開放。UALink聯盟匯聚AMD、谷歌等巨頭;博通推出SUE框架融合以太網優勢;中國移動聯合48家單位發布OISA協議;海光攜手國產廠商推出HSL規范。這種開放趨勢將降低產業鏈協同門檻,加速技術創新。隨著超節點規模向萬卡、百萬卡級擴展,光通信、液冷、供電、交換芯片四大領域的技術突破將持續引領AI基礎設施升級。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新