谷歌第八代TPU登場：TPU 8t強訓練、TPU 8i破延遲，助力AI應用新飛躍

發布時間：2026-04-23 13:46 來源：快訊作者：唐云澤

在Cloud Next '26峰會上，谷歌宣布推出第八代TPU架構，包含TPU 8t和TPU 8i兩款芯片，分別針對AI訓練與推理場景優化。TPU 8t主打大規模訓練性能，TPU 8i則聚焦低延遲推理，兩者預計于2026年下半年正式商用。目前該系列芯片采用申請制開放，Google Cloud用戶需通過官網提交使用需求，原生PyTorch支持等軟件功能仍處于預覽階段，僅向特定合作伙伴及早期客戶開放測試。

TPU 8t通過SparseCore核心與Virgo網絡拓撲的協同設計，將大規模預訓練效率提升至新高度。其采用3D Torus網絡架構，單個超級計算單元可集成9600顆芯片，共享2PB內存資源，總算力達121 ExaFlops。針對混合專家模型（MoE）的稀疏計算特性，SparseCore技術使矩陣乘法單元專注核心運算，避免因不規則內存訪問導致的性能損耗。數據傳輸層面，Virgo網絡將芯片間通信帶寬翻倍，外部數據中心連接帶寬提升四倍，配合Direct Storage技術繞過CPU直接讀取高速存儲，使訓練速度提升十倍，單位算力性價比較前代提高2.7倍。

TPU 8i的硬件設計圍繞長上下文推理場景展開。其配備288GB高帶寬內存與384MB片上SRAM（容量較前代增加三倍），可將完整對話上下文緩存至芯片內部，減少外部數據交互頻次。針對混合專家模型推理時的集體通信需求，CAE加速引擎將芯片間數據同步延遲降低五倍，互聯帶寬提升至19.2 Tb/s。網絡拓撲方面，Boardfly架構借鑒Dragonfly設計思想，通過增加長距離直連鏈路，使1024顆芯片組成的系統中最遠通信距離從16跳縮短至7跳，降幅達56%。這些優化使TPU 8i在推理任務中的性價比提升80%，配合谷歌自研Arm Axion架構CPU的能效優化，系統整體運行流暢度顯著提升。

谷歌此次將TPU 8t與TPU 8i全面開放給云客戶，支持PyTorch、JAX等主流AI框架，開發者無需學習新編程語言即可調用算力資源。公司同步提供開源參考模型代碼，降低技術上手門檻。該舉措旨在解決AI應用響應延遲的核心痛點——傳統架構下用戶語音數據需往返遠程數據中心處理，而第八代TPU通過芯片級優化與網絡拓撲革新，顯著縮短數據傳輸路徑，為實時交互類AI應用提供算力支撐。

隨著AI訓練與推理需求分化，谷歌TPU產品線正式進入精細化分工階段。TPU 8t通過超級計算集群與稀疏計算優化，滿足千億參數模型訓練需求；TPU 8i則憑借大容量緩存與低延遲通信，支撐復雜推理場景。這種設計思路與谷歌Gemini大模型的運行需求深度契合，也為全球開發者構建智能體時代的應用生態奠定算力基礎。

更多>同類內容