小米AI新突破：羅福莉領銜打造萬億參數模型，獲林俊旸力贊

發布時間：2026-03-20 18:43 來源：快訊作者：李娜

全球最大API聚合平臺OpenRouter上，一款名為Hunter Alpha的神秘模型在3月11日悄然上線。這款未標注開發者身份的模型以“隱身模式”發布，并免費向開發者開放訪問權限。測試數據顯示，其參數規模達1萬億，上下文窗口支持100萬token，且自稱是主要基于中文訓練的中國AI模型，知識截止時間為2025年5月。由于這些特性與DeepSeek此前發布的模型風格高度相似，市場一度猜測這是DeepSeek在秘密測試下一代系統。

短短七天內，Hunter Alpha的累計調用量突破1萬億token，連續多日占據平臺榜單首位。然而，這一“黑馬”的真實身份很快被揭曉——小米MiMo團隊正式認領該模型，并確認其為旗艦模型MiMo-V2-Pro的內部測試版本。這一消息引發行業關注，因為小米此前在AI領域并未展現出如此激進的布局。更引人注目的是，小米AI團隊的核心人物是前DeepSeek核心研究員羅福莉，她的技術背景為這一成果增添了更多解讀空間。

在近期的小米新品發布會上，雷軍正式推出了三款自研大模型：旗艦基座模型MiMo-V2-Pro、全模態理解模型MiMo-V2-Omni以及擬人語音大模型MiMo-V2-TTS。其中，MiMo-V2-Pro作為核心產品，總參數量達1萬億，但通過稀疏化設計將激活參數控制在42B，支持1M超長上下文窗口。這一架構基于改進的MoE（Mixture-of-Experts）體系，通過動態激活部分子網絡，在保持計算效率的同時擴展了模型容量。其注意力機制采用分層組合的混合設計，結合局部窗口注意力與全局注意力，有效解決了長上下文場景下的推理退化問題。

從應用場景來看，MiMo-V2-Pro的定位突破了傳統語言模型的邊界。它不再以生成對話為核心目標，而是作為智能體系統的中樞，能夠理解任務目標、規劃執行路徑、調用外部工具，并在多階段過程中持續修正策略。例如，在代碼生成和自動化任務中，模型可在單次上下文中保留完整的中間狀態、工具調用結果和歷史決策路徑，避免頻繁的上下文重建。這一特性使其在匿名測試階段就展現出顯著優勢，OpenRouter數據顯示，其使用場景高度集中在開發工具和復雜任務執行領域。

性能評估方面，MiMo-V2-Pro在通用Agent能力測試（Claweval）中得分61.5，接近Claude Opus 4.6的水平；在PinchBench測試中躋身全球前三，編碼能力甚至超越Claude Sonnet 4.6。更引人注目的是其定價策略：在256K上下文長度內，輸入token單價為每百萬1美元，輸出為每百萬3美元；擴展至100萬上下文時，輸入單價僅升至每百萬2美元，輸出為每百萬6美元，約為Claude Opus 4.6成本的五分之一。這一價格優勢使其在商業應用中具備顯著競爭力。

羅福莉的技術路線選擇成為關注焦點。這位畢業于北京大學計算語言學研究所的研發者，曾在阿里達摩院主導多語言預訓練模型VECO的開發，并在DeepSeek期間參與MoE大模型DeepSeek-V2的核心設計。2025年11月加入小米后，她迅速組建團隊并推進1T基礎模型的訓練。據其透露，模型最初的目標是提升長上下文推理效率，而混合注意力機制的創新設計使其成為智能體時代的理想基礎。她還在社交平臺分享了團隊管理細節，例如要求成員每天與AI對話不少于100次，并表示將在模型穩定后考慮開源。

小米的AI布局并非臨時起意。雷軍在發布會上透露，公司2025年的研發和資本投入將超過160億元，其中AI是重點方向。盡管此前在AI領域保持低調，但MiMo-V2-Pro的發布標志著小米正式加入大模型競爭行列。在全球大模型綜合智能排行榜Artificial Analysis上，該模型已位列全球第八，按品牌排名則位居第五，超越了xAI Grok等競爭對手。雷軍承認，小米的實際進展可能比外界看到的更快，而持續投入將是其在AI時代保持競爭力的關鍵。

更多>同類內容