巨人財經 - 專業科技行業財經媒體

小米AI新突破:羅福莉領銜打造萬億參數模型,獲林俊旸力贊

   發布時間:2026-03-20 18:43 作者:李娜

全球最大API聚合平臺OpenRouter上,一款名為Hunter Alpha的神秘模型在3月11日悄然上線。這款未標注開發者身份的模型以“隱身模式”發布,并免費向開發者開放訪問權限。測試數據顯示,其參數規模達1萬億,上下文窗口支持100萬token,且自稱是主要基于中文訓練的中國AI模型,知識截止時間為2025年5月。由于這些特性與DeepSeek此前發布的模型風格高度相似,市場一度猜測這是DeepSeek在秘密測試下一代系統。

短短七天內,Hunter Alpha的累計調用量突破1萬億token,連續多日占據平臺榜單首位。然而,這一“黑馬”的真實身份很快被揭曉——小米MiMo團隊正式認領該模型,并確認其為旗艦模型MiMo-V2-Pro的內部測試版本。這一消息引發行業關注,因為小米此前在AI領域并未展現出如此激進的布局。更引人注目的是,小米AI團隊的核心人物是前DeepSeek核心研究員羅福莉,她的技術背景為這一成果增添了更多解讀空間。

在近期的小米新品發布會上,雷軍正式推出了三款自研大模型:旗艦基座模型MiMo-V2-Pro、全模態理解模型MiMo-V2-Omni以及擬人語音大模型MiMo-V2-TTS。其中,MiMo-V2-Pro作為核心產品,總參數量達1萬億,但通過稀疏化設計將激活參數控制在42B,支持1M超長上下文窗口。這一架構基于改進的MoE(Mixture-of-Experts)體系,通過動態激活部分子網絡,在保持計算效率的同時擴展了模型容量。其注意力機制采用分層組合的混合設計,結合局部窗口注意力與全局注意力,有效解決了長上下文場景下的推理退化問題。

從應用場景來看,MiMo-V2-Pro的定位突破了傳統語言模型的邊界。它不再以生成對話為核心目標,而是作為智能體系統的中樞,能夠理解任務目標、規劃執行路徑、調用外部工具,并在多階段過程中持續修正策略。例如,在代碼生成和自動化任務中,模型可在單次上下文中保留完整的中間狀態、工具調用結果和歷史決策路徑,避免頻繁的上下文重建。這一特性使其在匿名測試階段就展現出顯著優勢,OpenRouter數據顯示,其使用場景高度集中在開發工具和復雜任務執行領域。

性能評估方面,MiMo-V2-Pro在通用Agent能力測試(Claweval)中得分61.5,接近Claude Opus 4.6的水平;在PinchBench測試中躋身全球前三,編碼能力甚至超越Claude Sonnet 4.6。更引人注目的是其定價策略:在256K上下文長度內,輸入token單價為每百萬1美元,輸出為每百萬3美元;擴展至100萬上下文時,輸入單價僅升至每百萬2美元,輸出為每百萬6美元,約為Claude Opus 4.6成本的五分之一。這一價格優勢使其在商業應用中具備顯著競爭力。

羅福莉的技術路線選擇成為關注焦點。這位畢業于北京大學計算語言學研究所的研發者,曾在阿里達摩院主導多語言預訓練模型VECO的開發,并在DeepSeek期間參與MoE大模型DeepSeek-V2的核心設計。2025年11月加入小米后,她迅速組建團隊并推進1T基礎模型的訓練。據其透露,模型最初的目標是提升長上下文推理效率,而混合注意力機制的創新設計使其成為智能體時代的理想基礎。她還在社交平臺分享了團隊管理細節,例如要求成員每天與AI對話不少于100次,并表示將在模型穩定后考慮開源。

小米的AI布局并非臨時起意。雷軍在發布會上透露,公司2025年的研發和資本投入將超過160億元,其中AI是重點方向。盡管此前在AI領域保持低調,但MiMo-V2-Pro的發布標志著小米正式加入大模型競爭行列。在全球大模型綜合智能排行榜Artificial Analysis上,該模型已位列全球第八,按品牌排名則位居第五,超越了xAI Grok等競爭對手。雷軍承認,小米的實際進展可能比外界看到的更快,而持續投入將是其在AI時代保持競爭力的關鍵。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新