DeepSeek團隊在人工智能領域再掀波瀾,其最新研究論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》正式發布,提出了一種名為"條件記憶"的創新技術框架。這項突破性成果旨在解決大語言模型在知識檢索與動態推理之間的效率矛盾,通過引入稀疏查找機制優化模型架構,為下一代稀疏模型發展開辟新路徑。
研究團隊由DeepSeek核心成員與北京大學王選所趙東巖、張輝帥團隊聯合組成,針對現有混合專家模型(MoE)的局限性展開攻關。傳統Transformer架構在處理命名實體、公式化表達等靜態知識時,需通過多層注意力機制重建檢索路徑,造成計算資源的浪費。新提出的Engram模塊通過稀疏查找操作直接獲取靜態嵌入,與MoE的動態參數激活形成互補,形成"動態計算+靜態檢索"的雙軌機制。
實驗數據顯示,在固定參數量和計算量的條件下,將20%-25%的稀疏參數分配給Engram模塊可獲得最優性能。以100億參數規模模型為例,驗證損失值從1.7248降至1.7109。基于該發現訓練的Engram-27B模型,通過調整專家數量與記憶模塊配比,在知識推理、代碼生成等任務中展現出顯著優勢:MMLU基準測試提升3.0分,Humaneval代碼生成任務提升3.0分,GSM8K數學推理提升2.2分。
這項技術突破的核心在于"U形擴展定律"的發現。研究證實,當Engram內存占比達到總稀疏參數的74.3%時,模型在保持計算效率的同時,能有效釋放注意力機制的處理能力。機制分析表明,Engram模塊通過將靜態知識檢索前移至早期網絡層,使后續注意力層可專注于全局上下文理解,特別在長文本處理場景中表現出色。
值得關注的是,該研究明確將條件記憶定位為下一代稀疏模型的基礎組件。結合近期外媒報道,DeepSeek計劃在春節前后發布的新旗艦模型V4,極有可能集成這項創新技術。知情人士透露,內部測試顯示V4在代碼生成領域已超越Claude、GPT等主流模型,其強勁表現引發行業高度期待。
自2024年發布R1模型引發全球關注以來,DeepSeek持續保持技術迭代速度。2025年下半年,該團隊平均每月都有重要成果發布:12月開源的V3.2系列模型達到GPT-5水平;11月發布的Math-V2成為首個通過國際奧數金牌測試的開源模型;10月推出的OCR技術通過光學壓縮將長文本處理成本降低60%;9月更以百萬token輸入價格0.2元的策略震動行業。
此次條件記憶技術的突破,標志著大語言模型進入"動態智能+靜態知識"的融合發展階段。通過解耦存儲與計算,Engram架構不僅提升了知識檢索效率,更重構了模型內部的注意力分配機制。這種設計范式為處理多模態數據、構建通用人工智能提供了新的技術路徑,或將重新定義AI模型的能力邊界。




















