DeepSeek新年發力：梁文鋒參與論文發布，mHC技術或引領大模型新方向

發布時間：2026-01-03 18:25 來源：快訊作者：楊凌霄

在人工智能領域，一項名為mHC（流形約束超連接）的新架構技術引發了廣泛關注。這項由DeepSeek團隊提出的技術，旨在解決傳統超連接在大規模模型訓練中面臨的不穩定性難題，為深度神經網絡的發展開辟了新的路徑。

自2016年何愷明提出“殘差連接”以來，這種允許信息“走捷徑”的設計便成為構建深度神經網絡的核心方法。它通過在神經網絡中設置“快捷通道”，讓信息能夠跳過某些層，有效緩解了深層網絡訓練困難的問題。近年來，超連接技術在此基礎上進一步發展，增加了更多并行的“道路”和連接方式，試圖進一步提升網絡的性能。然而，這種增強并非毫無代價，它削弱了神經網絡“原樣傳遞”信息的能力，導致訓練過程變得不穩定，尤其是在模型規模不斷擴大的情況下，這一問題愈發突出。

mHC技術的出現，為解決這一難題提供了新的思路。其核心在于通過數學方法，將復雜的連接方式約束在特定的“形狀”空間內，也就是流形空間。流形可以理解為一種特定形狀的曲面或空間結構，通過這種約束，mHC技術恢復了神經網絡穩定傳遞信息的能力，即恒等映射特性。恒等映射特性指的是神經網絡能夠“原樣”傳遞輸入信息的能力，這是訓練穩定的關鍵所在。

實驗數據充分證明了mHC技術的有效性。在擁有27B參數的混合專家模型上，mHC展現出了穩定的訓練曲線。與基線相比，最終損失降低了0.021，同時在BBH推理任務上，相比傳統HC提升了2.1%。這一成果表明，mHC技術不僅在理論上具有創新性，在實際應用中也具有顯著的優勢。

除了理論上的突破，DeepSeek團隊還為mHC架構開發了一系列基礎設施優化措施。他們利用TileLang框架實現了多個融合內核，將原本分散的操作合并執行，從而減少了內存訪問次數，提高了計算效率。針對Sinkhorn - Knopp算法，團隊設計了專門的前向和反向內核，在芯片上重新計算中間結果，避免了存儲開銷。在流水線并行方面，團隊擴展了DualPipe調度策略，通過將MLP層的特定內核放在高優先級計算流上執行，實現了計算與通信的重疊，進一步提升了系統的整體性能。

這些優化措施使得mHC在保持性能優勢的同時，顯著減少了額外開銷，為大規模模型的訓練和應用提供了更加高效、穩定的解決方案。mHC技術的成功研發，對人工智能行業產生了深遠的影響。訓練穩定性和可擴展性的提升，使得大模型在更復雜的場景中落地成為可能。例如，需要超大規模參數的多模態模型、工業級的智能決策系統等，都能夠從mHC技術中受益。特別是對于算力有限的中小AI企業而言，這意味著他們能夠嘗試開發更復雜的大模型，降低了大模型研發的門檻，為行業的多元化發展注入了新的活力。

在論文的結論與展望部分，研究人員指出，mHC作為HC范式的廣義拓展，為未來研究開辟了多個重要方向。通過深化對拓撲結構如何影響優化與表征學習的理解，mHC有望突破現有局限，為下一代基礎架構的演進指明新的路徑。目前，行業內人士已經開始預測，這項創新技術或將應用到DeepSeek下一代模型中，有望帶來比肩國際頂尖水平的性能突破，進一步推動人工智能技術的發展。

更多>同類內容