在Cloud Next '26峰會上,谷歌宣布推出第八代TPU架構,包含TPU 8t和TPU 8i兩款芯片,分別針對AI訓練與推理場景優化。TPU 8t主打大規模訓練性能,TPU 8i則聚焦低延遲推理,兩者預計于2026年下半年正式商用。目前該系列芯片采用申請制開放,Google Cloud用戶需通過官網提交使用需求,原生PyTorch支持等軟件功能仍處于預覽階段,僅向特定合作伙伴及早期客戶開放測試。
TPU 8t通過SparseCore核心與Virgo網絡拓撲的協同設計,將大規模預訓練效率提升至新高度。其采用3D Torus網絡架構,單個超級計算單元可集成9600顆芯片,共享2PB內存資源,總算力達121 ExaFlops。針對混合專家模型(MoE)的稀疏計算特性,SparseCore技術使矩陣乘法單元專注核心運算,避免因不規則內存訪問導致的性能損耗。數據傳輸層面,Virgo網絡將芯片間通信帶寬翻倍,外部數據中心連接帶寬提升四倍,配合Direct Storage技術繞過CPU直接讀取高速存儲,使訓練速度提升十倍,單位算力性價比較前代提高2.7倍。
TPU 8i的硬件設計圍繞長上下文推理場景展開。其配備288GB高帶寬內存與384MB片上SRAM(容量較前代增加三倍),可將完整對話上下文緩存至芯片內部,減少外部數據交互頻次。針對混合專家模型推理時的集體通信需求,CAE加速引擎將芯片間數據同步延遲降低五倍,互聯帶寬提升至19.2 Tb/s。網絡拓撲方面,Boardfly架構借鑒Dragonfly設計思想,通過增加長距離直連鏈路,使1024顆芯片組成的系統中最遠通信距離從16跳縮短至7跳,降幅達56%。這些優化使TPU 8i在推理任務中的性價比提升80%,配合谷歌自研Arm Axion架構CPU的能效優化,系統整體運行流暢度顯著提升。
谷歌此次將TPU 8t與TPU 8i全面開放給云客戶,支持PyTorch、JAX等主流AI框架,開發者無需學習新編程語言即可調用算力資源。公司同步提供開源參考模型代碼,降低技術上手門檻。該舉措旨在解決AI應用響應延遲的核心痛點——傳統架構下用戶語音數據需往返遠程數據中心處理,而第八代TPU通過芯片級優化與網絡拓撲革新,顯著縮短數據傳輸路徑,為實時交互類AI應用提供算力支撐。
隨著AI訓練與推理需求分化,谷歌TPU產品線正式進入精細化分工階段。TPU 8t通過超級計算集群與稀疏計算優化,滿足千億參數模型訓練需求;TPU 8i則憑借大容量緩存與低延遲通信,支撐復雜推理場景。這種設計思路與谷歌Gemini大模型的運行需求深度契合,也為全球開發者構建智能體時代的應用生態奠定算力基礎。





















