巨人財經 - 專業科技行業財經媒體

Kimi新架構引行業關注!17歲高中生共作一作,技術之路未來可期

   發布時間:2026-03-17 16:27 作者:陳陽

研究團隊從網絡深度與序列時間的對偶性出發,發現傳統殘差連接存在"記憶負擔"問題。在PreNorm架構下,各層信息等權重累加導致早期特征被稀釋,就像人類大腦無差別存儲所有記憶,反而讓關鍵信息難以檢索。更嚴峻的是,隱藏狀態范數隨深度指數增長,引發訓練不穩定現象。針對這些痛點,團隊創造性地引入注意力機制替代固定累加:當前層通過可學習查詢向量,動態選擇需要關注的前置層信息,實現"選擇性回憶"。

為解決計算復雜度從O(L)激增至O(L2)的難題,研究團隊開發出Block AttnRes技術。該方案將連續若干層壓縮為"信息塊",每個塊僅保留一個摘要向量。當處理第N層時,只需關注塊間摘要與塊內實時輸出,使復雜度降至O(L·B)。配合緩存式流水線通信、序列分片預填充等工程優化,該技術在實際模型中展現出驚人效率。

在Kimi Linear 48B大模型(3B激活參數)的驗證中,新機制帶來顯著提升:訓練計算量減少20%的同時,數學推理(MATH、GSM8K)、代碼生成(Humaneval)等任務性能持平或優化,多語言理解一致性得到改善。更關鍵的是,這項技術可作為"即插即用"組件直接替換傳統殘差連接,無需調整網絡其他部分。

這項研究的共同一作名單中,17歲高中生陳廣宇的加入引發科技圈熱議。這位北京少年從黑客松比賽起步,在導師董科含引導下,通過研讀Transformer經典論文、參與GitHub開源項目,逐步構建起對大模型技術的認知體系。其關于"機械輔助手"的創意項目不僅獲得硅谷AI初創公司CEO關注,更讓他在舊金山實習期間直接參與144張H100顯卡的探索性項目,與早期投資者Vinod Khosla展開技術對話。

陳廣宇的技術成長軌跡頗具啟示意義:從運營短視頻賬號到鉆研Triton kernel優化,從經營跨境電商到重寫注意力機制,這個年輕人始終被底層技術的魅力所驅動。當他因GitHub上的FLA項目被Kimi團隊相中時,其技術積累已形成完整閉環——這種將興趣轉化為專業能力的成長路徑,或許比"天才少年"的標簽更具參考價值。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新