巨人財經 - 專業科技行業財經媒體

華中科技大學與字節跳動攜手:深度混合注意力機制為AI模型“提智”賦能

   發布時間:2026-03-26 03:00 作者:王婷

大型語言模型在深度擴展過程中面臨的信息衰減問題,一直是制約其性能提升的關鍵瓶頸。華中科技大學電子信息與通信學院與字節跳動Seed團隊聯合攻關,提出深度混合注意力機制(MoDA),為突破這一技術瓶頸提供了創新方案。該研究成果發表于學術平臺arXiv,論文編號為arXiv:2603.15619v1。

隨著模型層數增加,早期處理的重要信息會逐漸被稀釋,就像傳話游戲中信息傳遞越遠越容易失真。傳統解決方案存在明顯局限:殘差連接雖能緩解梯度消失問題,但會將歷史信息壓縮成單一線索,導致關鍵特征丟失;密集連接雖能完整保留歷史信息,但計算復雜度隨層數平方增長,在大型模型中難以應用。研究團隊通過重新設計信息傳遞方式,在保留歷史信息與控制計算開銷之間找到平衡點。

MoDA的核心創新在于將序列級注意力與深度級注意力融合到統一框架中。每個注意力頭在處理當前層信息時,可自適應訪問所有前置層的關鍵信息。具體實現上,模型為每個序列位置構建擴展鍵值序列,前半部分為標準序列信息,后半部分為深度歷史信息,通過掩碼機制確保因果性約束。在寫入階段,當前層的鍵值對會被追加到深度流中,供后續層調用。

研究團隊通過硬件感知設計顯著提升了計算效率。針對深度鍵值緩存的非連續訪問問題,提出塊感知布局方案,將查詢分塊處理,每個塊僅訪問對應局部深度區域。結合分組查詢注意力特性,進一步開發組感知計算方法,使有效深度利用率提升至G/C(G為組大小,C為塊大小)。實驗數據顯示,優化后的實現在64K序列長度下達到FlashAttention-2效率的97.3%。

在模型性能驗證方面,研究團隊使用OLMo2數據集訓練了700M和1.5B參數規模的模型。實驗表明,MoDA在10個驗證基準上平均降低0.2困惑度,在10個下游任務中平均提升2.11%性能,而計算開銷僅增加3.7%的FLOPs。消融研究顯示,深度鍵值投影組件貢獻顯著,單獨使用即可降低0.41訓練困惑度,添加前饋網絡投影后性能進一步提升。

注意力可視化分析揭示了MoDA的獨特工作機制。模型在中間層和后期層會主動分配注意力權重給深度歷史信息,不同類型注意力頭形成分工協作:尖銳頭在保持序列關注的同時分配部分概率給深度位置,寬泛頭則更多依賴深度信息。這種模式使注意力分布更廣泛,突破了傳統模型對固定匯聚位置的依賴。

針對不同深度配置的實驗表明,MoDA在48層深層模型和24層淺層模型中均能穩定改善性能。特別在后歸一化配置下,48層模型的驗證損失改善幅度達到0.0409,是預歸一化配置的10倍。漸進式優化實驗顯示,從樸素實現到完全優化版本,運行時間縮短了1458倍,驗證了硬件感知設計的重要性。

盡管MoDA已實現高效硬件實現,但研究團隊指出,在萬億參數規模的工業級部署中仍需突破內存瓶頸。為此提出有界深度鍵值槽緩存方案,通過固定大小的緩沖區動態管理深度信息,可采用動態選擇或滑動窗口策略。這種設計將內存開銷從深度依賴轉為槽位依賴,為超大規模模型訓練提供了可行路徑。

該研究開源了完整實現代碼,為學術界和產業界提供了可直接應用的技術方案。MoDA通過創新的信息組織方式,而非簡單增加參數規模,為構建更深層、更強大的AI系統開辟了新方向。其硬件友好的設計理念,也展現了理論研究與工程實踐相結合的價值。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新