在人工智能大模型領域,長上下文推理能力一直是研究的關鍵方向。MLA(Multi-head Latent Attention多頭潛在注意力架構)憑借低秩壓縮KV緩存的創新設計,在長上下文推理的顯存占用和帶寬利用方面實現了雙重優化,其有效性已在DeepSeek - V2等模型中得到充分驗證。然而,當前主流的預訓練模型,如LLaMA、Qwen千問等,大多基于GQA架構構建,企業已圍繞這些模型投入大量工程優化資源。若要復用MLA架構,需要對模型進行重新訓練,成本高昂,這成為MLA大規模應用的一大阻礙。
為解決這一難題,在北京大學鯤鵬昇騰科教創新卓越中心提供的強大算力支持下,北京大學人工智能研究院助理教授張牧涵團隊提出了TransMLA轉化框架。該框架無需對主流模型進行重新訓練,就能實現向MLA架構的遷移,為解決上述問題提供了創新方案。
TransMLA針對GQA向MLA遷移過程中的核心痛點,精準發力,實現了四大技術模塊的突破。在結構映射方面,針對分組KV頭與MLA單頭潛在表示不兼容的問題,通過特定的線性變換,將GQA分組后的K、V向量投影或融合為單一的低秩潛在表示,并配備投影矩陣,確保KV信息能夠精準恢復,為遷移工作筑牢基礎。在位置編碼融合上,提出了RoRoPE技術方案,通過創新適配,讓位置編碼能夠順暢融入低秩壓縮流程,避免了直接對RoPE應用PCA等通用降維方法可能導致的位置信息損失或模型性能下降問題。對于位置信息處理,通過將RoPE中相鄰頻率的旋轉維度進行折疊與融合,在降低參數量的同時,更高效地集中和保留關鍵位置信息,維持模型在長序列下的語義理解能力。在數值穩定性提升方面,通過均衡Key和Value矩陣在壓縮前的范數分布,增強了聯合壓縮(如PCA)的數值穩定性,減少了信息損失。
在技術落地過程中,昇騰發揮了不可或缺的支撐作用。其高效并行計算架構能夠滿足結構映射模塊多任務協同處理的需求,保障了架構遷移的效率。同時,昇騰優化的存儲與緩存體系,為FreqFold的頻率信息處理、BKV - PCA的范數均衡提供了穩定的硬件基礎,有效提升了KV壓縮的穩定性與資源利用效率,助力TransMLA的核心技術得以平穩落地。
實驗結果表明,TransMLA在轉換過程中展現出顯著的性能優勢。以裁剪LLaMA - 2 - 7B模型68.75%的KV緩存為例,無需訓練的情況下,模型核心性能僅有輕微損失。在32K序列長度、FP16精度下,基于昇騰平臺的推理速度相較于業界主流GPU平臺有大幅提升。依托開放的生態資源,昇騰積極推動TransMLA穩定支持主流模型部署,并將其集成至vLLM/SGLang等高性能推理框架生態中,方便用戶部署,大幅降低了企業落地適配成本。
TransMLA與昇騰的協同創新,成功打通了主流模型與MLA架構之間的鴻溝,充分發揮了昇騰的生態優勢。昇騰全鏈路支持助力TransMLA實現了“零重訓、低損失”的目標,保留了模型參數優勢,降低了企業基于昇騰進行升級的門檻。這一軟硬件協同的典范,為長上下文推理提供了基于昇騰生態的解決方案,推動了自主計算與前沿AI的深度融合,彰顯了昇騰在大模型產業中的核心引領作用,為大模型產業依托自主硬件實現降本增效提供了切實可行的路徑。























