昇騰攜手TransMLA架橋梁：零重訓實現架構遷移，賦能大模型高效適配

發布時間：2026-01-13 18:20 來源：快訊作者：江紫萱

在人工智能大模型領域，長上下文推理能力一直是研究的關鍵方向。MLA（Multi-head Latent Attention多頭潛在注意力架構）憑借低秩壓縮KV緩存的創新設計，在長上下文推理的顯存占用和帶寬利用方面實現了雙重優化，其有效性已在DeepSeek - V2等模型中得到充分驗證。然而，當前主流的預訓練模型，如LLaMA、Qwen千問等，大多基于GQA架構構建，企業已圍繞這些模型投入大量工程優化資源。若要復用MLA架構，需要對模型進行重新訓練，成本高昂，這成為MLA大規模應用的一大阻礙。

為解決這一難題，在北京大學鯤鵬昇騰科教創新卓越中心提供的強大算力支持下，北京大學人工智能研究院助理教授張牧涵團隊提出了TransMLA轉化框架。該框架無需對主流模型進行重新訓練，就能實現向MLA架構的遷移，為解決上述問題提供了創新方案。

TransMLA針對GQA向MLA遷移過程中的核心痛點，精準發力，實現了四大技術模塊的突破。在結構映射方面，針對分組KV頭與MLA單頭潛在表示不兼容的問題，通過特定的線性變換，將GQA分組后的K、V向量投影或融合為單一的低秩潛在表示，并配備投影矩陣，確保KV信息能夠精準恢復，為遷移工作筑牢基礎。在位置編碼融合上，提出了RoRoPE技術方案，通過創新適配，讓位置編碼能夠順暢融入低秩壓縮流程，避免了直接對RoPE應用PCA等通用降維方法可能導致的位置信息損失或模型性能下降問題。對于位置信息處理，通過將RoPE中相鄰頻率的旋轉維度進行折疊與融合，在降低參數量的同時，更高效地集中和保留關鍵位置信息，維持模型在長序列下的語義理解能力。在數值穩定性提升方面，通過均衡Key和Value矩陣在壓縮前的范數分布，增強了聯合壓縮（如PCA）的數值穩定性，減少了信息損失。

在技術落地過程中，昇騰發揮了不可或缺的支撐作用。其高效并行計算架構能夠滿足結構映射模塊多任務協同處理的需求，保障了架構遷移的效率。同時，昇騰優化的存儲與緩存體系，為FreqFold的頻率信息處理、BKV - PCA的范數均衡提供了穩定的硬件基礎，有效提升了KV壓縮的穩定性與資源利用效率，助力TransMLA的核心技術得以平穩落地。

實驗結果表明，TransMLA在轉換過程中展現出顯著的性能優勢。以裁剪LLaMA - 2 - 7B模型68.75%的KV緩存為例，無需訓練的情況下，模型核心性能僅有輕微損失。在32K序列長度、FP16精度下，基于昇騰平臺的推理速度相較于業界主流GPU平臺有大幅提升。依托開放的生態資源，昇騰積極推動TransMLA穩定支持主流模型部署，并將其集成至vLLM/SGLang等高性能推理框架生態中，方便用戶部署，大幅降低了企業落地適配成本。

TransMLA與昇騰的協同創新，成功打通了主流模型與MLA架構之間的鴻溝，充分發揮了昇騰的生態優勢。昇騰全鏈路支持助力TransMLA實現了“零重訓、低損失”的目標，保留了模型參數優勢，降低了企業基于昇騰進行升級的門檻。這一軟硬件協同的典范，為長上下文推理提供了基于昇騰生態的解決方案，推動了自主計算與前沿AI的深度融合，彰顯了昇騰在大模型產業中的核心引領作用，為大模型產業依托自主硬件實現降本增效提供了切實可行的路徑。

更多>同類內容