巨人財經 - 專業科技行業財經媒體

MiniMax M2.5強勢突圍:性能成本雙優,引爆全球Agent需求新熱潮

   發布時間:2026-02-24 15:16 作者:吳俊

春節期間,AI領域迎來一匹黑馬——MiniMax憑借其新一代模型M2.5在開發者圈掀起熱潮。2月20日港股馬年首個交易日,MiniMax股價大漲14.52%,市值一度突破3042億港元。這一資本市場的積極反應,源于M2.5在性能與市場表現上的雙重突破,為智能體(Agent)場景的應用落地提供了關鍵支撐。

過去兩年,AI行業聚焦于供給側技術升級,更強大的模型與更高效的芯片成為主流方向,但Agent相關需求卻因技術與成本限制長期被壓制。M2.5的推出恰好填補了這一市場空白。作為專為智能體場景設計的生產級旗艦模型,M2.5上線僅12小時便登頂OpenRouter熱度榜,一周內以3.07T tokens的周調用量占據平臺榜首,這一數據甚至超過Kimi K2.5、GLM-5與DeepSeek V3.2三家的總和。更關鍵的是,M2.5直接帶動了OpenRouter平臺100K至1M長文本區間的增量調用需求,而這一區間正是Agent工作流的典型消耗場景。此前,開發者因缺乏能力與成本兼備的模型,難以將現成的Agent工作流落地,M2.5的出現讓這一困境迎刃而解。

M2.5的技術實力在多個維度得到驗證。在編程領域權威的SWE-Bench Verified評測中,其以80.2%的通過率達到Claude Opus系列水平,并在多語言任務Multi-SWE-Bench上排名第一。知名技術博主Simon Willison的獨立測評顯示,M2.5在主流模型中位列第三,僅次于Claude Opus 4.5和Gemini 3 Flash,且是所有開源模型中的第一名。執行效率方面,研究機構SemiAnalysis實測表明,在8張H200顯卡上,M2.5每GPU每秒可穩定處理約2500個token,即使在處理超1萬個token的上下文時,解碼速度依然穩定。這些數據直接證明了M2.5在性能上的硬實力。

硅谷開發者生態對M2.5的認可早已顯現。早在M2.1模型推出時,AI編程工具新貴Kilo Code便將其設為默認模型,其CEO稱M2.1在真實編碼工作流中可與前沿模型媲美。此次M2.5全面開源后,模型權重在HuggingFace上線并支持本地部署,Kilo Code第一時間宣布接入,同時OpenCode、OpenClaw、Fireworks、魔搭社區等國內外知名開源Agent應用與工具平臺也紛紛跟進。開源社區的密集接入,不僅源于M2.5的技術優勢,更因其極具競爭力的定價策略。M2.5推出兩個版本:100 TPS快速版輸入每百萬tokens僅0.3美元、輸出2.4美元,50 TPS版本輸出價格再降一半,精準落在開源社區的成本接受區間。能力、速度與成本的平衡,讓M2.5在OpenRouter上走出近乎指數型的增長曲線。

M2.5的突破并非偶然,其背后是MiniMax從工程底層重新設計的原生Agent強化學習系統——代號Forge。傳統RL框架存在工程復雜度高、訓練推理一致性維護成本高的問題,Forge通過引入中間件抽象層,將Agent執行邏輯與底層訓練推理引擎解耦。Gateway Server作為標準化通信網關隔離高層行為與模型復雜性,Data Pool異步收集訓練軌跡,實現生成與訓練的解耦。這一設計讓開發者無需修改Agent內部代碼,即可接入數百種框架、數千種工具調用格式進行訓練。在訓練效率與穩定性上,Forge通過Prefix Tree Merging方案將訓練樣本重構為樹形結構,消除重復上下文前綴,實現約40倍訓練加速并降低顯存開銷;Windowed FIFO異步調度策略在最大化吞吐量的同時控制樣本離策略程度;自研CISPO算法保障MoE模型大規模訓練穩定性,并針對Agent長軌跡信用分配難題設計復合獎勵機制,解決長程任務的注意力稀釋問題。正是這套底層系統,讓M2.5能在Kilo、OpenClaw等嚴苛的Agent框架上穩定運行。

MiniMax的技術迭代速度同樣令人矚目。過去108天內,其陸續推出M2、M2.1、M2.5三款模型,在SWE-Bench Verified榜單上的進步速度遠超Claude、GPT、Gemini系列,成為行業迭代最快的模型系列。這一節奏恰好踩中全球Agent需求爆發的窗口期——OpenClaw從默默無聞到席卷全球僅用一兩個月,OpenRouter平臺上已有上千種同類AI工具和應用生長。在ChatGPT、Claude、Gemini“御三家”之外的新生態中,開發者的評判標準只有一個:模型是否跑得通、用得起。M2.5的出現精準擊穿了性能與成本的臨界點:能力躋身全球第一梯隊,價格僅為主流旗艦模型的十分之一,還支持本地部署。這不僅讓MiniMax收獲了3T tokens的周調用量,更讓開源社區中原本僅存在于Demo中的復雜多Agent系統首次具備大規模商業落地的經濟可行性。全球開發者用腳投票的結果,不僅是M2.5模型的增量,更是硅谷下一代開源生態應用的增量,標志著被壓制許久的全球Agent需求正迎來真正的爆發時刻。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新