前阿里千問技術負責人林俊旸在離職后發布的長文中,對AI大模型領域的技術演進路徑作出重要論斷。他指出當前行業正經歷從"推理型思考"向"智能體思考"的范式轉移,這一轉變以OpenAI o1和DeepSeek-R1等模型為標志,標志著強化學習后訓練階段正式取代預訓練規模擴張成為核心驅動力。數學推理與代碼生成等可驗證領域,已成為檢驗模型準確性的關鍵試驗場。
在技術實踐層面,林俊旸披露了千問團隊開發Qwen3時遭遇的深層矛盾。團隊原計劃構建支持混合思考模式的系統,卻發現指令模型與推理模型存在根本性沖突:前者追求極致響應速度與資源效率,后者需要消耗大量計算資源進行深度推演。這種數據分布與目標函數的錯位,導致強行融合的模型在兩項指標上均表現平平。基于商業客戶對處理效率與成本控制的嚴苛要求,Qwen2507版本最終選擇推出分離的30B指令模型與235B推理模型。
對比行業其他參與者的技術路線,Anthropic與DeepSeek等企業仍在探索統一架構下的推理與工具調用融合方案。這種差異反映出頭部廠商對技術演進方向的不同判斷——是優先優化現有架構的效率邊界,還是直接布局下一代智能體架構。
對于技術發展前景,林俊旸強調傳統通過延長推理鏈提升性能的方法即將觸及天花板。未來的突破將取決于智能體在動態環境中持續優化行動策略的能力,這要求訓練與推理系統實現更深度的解耦。隨著模型逐步獲得調用搜索引擎、執行代碼等外部工具的能力,如何防止模型通過操縱獎勵機制實現"作弊式優化",將成為關乎系統安全性的核心挑戰。這位技術專家特別指出,未來的競爭焦點將轉向環境構建質量、反作弊機制設計以及多智能體協作框架等系統性工程能力。






















