華中科技大學與字節跳動攜手：深度混合注意力機制為AI模型“提智”賦能

發布時間：2026-03-26 03:00 來源：快訊作者：王婷

大型語言模型在深度擴展過程中面臨的信息衰減問題，一直是制約其性能提升的關鍵瓶頸。華中科技大學電子信息與通信學院與字節跳動Seed團隊聯合攻關，提出深度混合注意力機制（MoDA），為突破這一技術瓶頸提供了創新方案。該研究成果發表于學術平臺arXiv，論文編號為arXiv:2603.15619v1。

隨著模型層數增加，早期處理的重要信息會逐漸被稀釋，就像傳話游戲中信息傳遞越遠越容易失真。傳統解決方案存在明顯局限：殘差連接雖能緩解梯度消失問題，但會將歷史信息壓縮成單一線索，導致關鍵特征丟失；密集連接雖能完整保留歷史信息，但計算復雜度隨層數平方增長，在大型模型中難以應用。研究團隊通過重新設計信息傳遞方式，在保留歷史信息與控制計算開銷之間找到平衡點。

MoDA的核心創新在于將序列級注意力與深度級注意力融合到統一框架中。每個注意力頭在處理當前層信息時，可自適應訪問所有前置層的關鍵信息。具體實現上，模型為每個序列位置構建擴展鍵值序列，前半部分為標準序列信息，后半部分為深度歷史信息，通過掩碼機制確保因果性約束。在寫入階段，當前層的鍵值對會被追加到深度流中，供后續層調用。

研究團隊通過硬件感知設計顯著提升了計算效率。針對深度鍵值緩存的非連續訪問問題，提出塊感知布局方案，將查詢分塊處理，每個塊僅訪問對應局部深度區域。結合分組查詢注意力特性，進一步開發組感知計算方法，使有效深度利用率提升至G/C（G為組大小，C為塊大小）。實驗數據顯示，優化后的實現在64K序列長度下達到FlashAttention-2效率的97.3%。

在模型性能驗證方面，研究團隊使用OLMo2數據集訓練了700M和1.5B參數規模的模型。實驗表明，MoDA在10個驗證基準上平均降低0.2困惑度，在10個下游任務中平均提升2.11%性能，而計算開銷僅增加3.7%的FLOPs。消融研究顯示，深度鍵值投影組件貢獻顯著，單獨使用即可降低0.41訓練困惑度，添加前饋網絡投影后性能進一步提升。

注意力可視化分析揭示了MoDA的獨特工作機制。模型在中間層和后期層會主動分配注意力權重給深度歷史信息，不同類型注意力頭形成分工協作：尖銳頭在保持序列關注的同時分配部分概率給深度位置，寬泛頭則更多依賴深度信息。這種模式使注意力分布更廣泛，突破了傳統模型對固定匯聚位置的依賴。

針對不同深度配置的實驗表明，MoDA在48層深層模型和24層淺層模型中均能穩定改善性能。特別在后歸一化配置下，48層模型的驗證損失改善幅度達到0.0409，是預歸一化配置的10倍。漸進式優化實驗顯示，從樸素實現到完全優化版本，運行時間縮短了1458倍，驗證了硬件感知設計的重要性。

盡管MoDA已實現高效硬件實現，但研究團隊指出，在萬億參數規模的工業級部署中仍需突破內存瓶頸。為此提出有界深度鍵值槽緩存方案，通過固定大小的緩沖區動態管理深度信息，可采用動態選擇或滑動窗口策略。這種設計將內存開銷從深度依賴轉為槽位依賴，為超大規模模型訓練提供了可行路徑。

該研究開源了完整實現代碼，為學術界和產業界提供了可直接應用的技術方案。MoDA通過創新的信息組織方式，而非簡單增加參數規模，為構建更深層、更強大的AI系統開辟了新方向。其硬件友好的設計理念，也展現了理論研究與工程實踐相結合的價值。

更多>同類內容