新年伊始,AI技術領域迎來一項重要突破——DeepSeek團隊悄然發布一篇論文,提出名為mHC的新型架構,旨在破解大規模模型訓練中的穩定性難題,同時維持性能優勢。這一成果雖未大張旗鼓宣傳,卻在科研圈引發廣泛關注。
大模型訓練長期面臨“效率與穩定”的矛盾。早期模型采用單通道殘差連接設計,類似工廠中的單條傳送帶,通過“恒等映射”確保信息完整傳遞,訓練過程穩定可靠。但隨著模型規模指數級增長,單通道逐漸成為瓶頸——信息擁堵、傳輸效率低下,直接制約了模型性能的提升。
為突破這一限制,行業曾嘗試“超連接”方案,通過構建多通道傳輸體系提升效率。字節跳動等團隊的研究表明,多通道設計雖能顯著提高信息吞吐量,卻因缺乏統一調度機制,導致信息在傳輸過程中出現“能量失衡”:部分通道信號被過度放大,另一些則被壓制,最終引發梯度爆炸,模型訓練中途崩潰。某頭部企業曾耗資數千萬訓練千億級模型,僅完成一萬余步便因損失值飆升被迫終止,前期投入化為泡影。
DeepSeek的mHC架構正是為解決這一痛點而生。研究團隊并未否定多通道的思路,而是創新性地引入智能調度系統。該系統基于Sinkhorn-Knopp算法,將連接矩陣約束在“雙擬隨機矩陣”的數學框架內——矩陣的行與列之和均為1,且所有元素非負。這一設計確保了信息傳播過程中的“能量守恒”,從根本上避免了信號失真。架構還對輸入輸出映射施加非負約束,防止正負系數相互抵消導致有效信息丟失。
為降低技術落地成本,研究團隊同步優化了訓練基礎設施。通過融合多個計算步驟為單一算子,減少內存讀寫次數;采用“重計算”策略,在反向傳播階段重新生成中間數據,大幅降低內存占用。實驗數據顯示,在擴展倍率為4的條件下,訓練時間僅微增,但穩定性得到質的提升。
實證研究驗證了mHC的實效性。團隊以270億參數模型為測試對象,發現其訓練損失值顯著低于傳統基線模型,下游任務表現全面超越,尤其在推理類任務中較超連接方案提升數個百分點。規模擴展實驗進一步證明,從30億到270億參數的模型訓練中,mHC的性能優勢始終穩定,未因數據量增加而衰減,顯示出極強的泛化能力。
這項研究的價值不僅限于技術層面。長期以來,高昂的訓練成本與穩定性風險令許多中小企業對大規模模型望而卻步。mHC架構通過精細化設計平衡性能、穩定性與成本,為行業提供了可復制的解決方案,有望降低技術門檻,推動AI應用的普及。論文作者陣容中,創始人梁文鋒的參與更凸顯了DeepSeek對該研究的戰略重視。























