在全球人工智能競爭日益白熱化的當下,AI基礎設施的協同效率已成為產業界關注的焦點。Gartner預測,到2026年全球AI總支出將突破2.52萬億美元,其中基礎設施支出增長率高達49%。隨著AI大模型參數規模突破萬億級、算力集群向萬卡甚至十萬卡級別演進,用戶對算力的迫切需求與集群利用率低下之間的矛盾愈發突出,如何提升數據在計算、存儲和網絡間的流轉效率,成為破解這一難題的關鍵。
中科曙光近日推出的全棧自研400G無損高速網絡scaleFabric,標志著國產AI基礎設施邁入緊耦合、強協同的新階段。該方案從核心IP、芯片到交換機、驅動軟件均實現自主可控,構建起完整的硬件-軟件技術體系。與之配套的"超級隧道"技術更通過智能化調度,為數據傳輸開辟專屬通道,有效解決網絡擁堵問題。曙光信息產業(北京)有限公司分布式存儲產品部總經理石靜指出:"當AI集群規模突破萬卡門檻,網絡性能已成為影響整體效率的核心變量。"
傳統架構下,計算、存儲與網絡間的資源分配采用靜態模式,難以適應AI業務爆發式增長的需求。以推理任務為例,其小IO隨機吞吐特性與預訓練階段的海量順序讀取需求截然不同,靜態資源分配極易形成性能瓶頸。"超級隧道"技術通過硬件層獨享RDMA連接與PCIe通道設計,結合軟件層資源動態綁定機制,使內存分配可隨流量變化自動調整。這種軟硬件協同優化使數據傳輸效率提升30%以上,在某氣象模擬項目中實現應用性能翻倍。
國家超算互聯網核心節點今年2月上線的3套scaleX萬卡集群,驗證了這套方案的實戰價值。該集群從交換機上電到業務上線僅用36小時,近一年穩定運行中完成超10萬個作業,在蛋白質研究等場景將效率提升3-6個數量級。國內主流大模型廠商的測試顯示,其預訓練數據準備、訓練Checkpoint及推理全鏈路均獲得高性能支撐,真正實現"一套存儲支撐全業務流"。
這套國產化方案的突破意義尤為顯著。此前國內高性能網絡領域長期依賴國外封閉方案或兼容性不足的傳統以太網,scaleFabric與超級隧道技術的結合,首次構建起完整的自主技術閉環。石靜強調:"全棧自研戰略使我們在硬件國產化組件與軟件完整源代碼基礎上,實現了基礎架構的完全自主可控。"這種技術自主性為應對智能體涌現等新趨勢提供了堅實保障,推動中國AI產業向更深層次發展。























