阿里前最年輕P10級技術專家林俊旸的離職,在AI行業掀起了一場關于技術路線與組織架構的深度討論。這位曾主導千問(Qwen)系列開源模型開發的核心人物,在宣布離職近一個月后,通過長文系統闡述了AI發展的新方向——從"訓練模型"轉向"訓練智能體",引發行業廣泛關注。
林俊旸在阿里期間創造了多項行業紀錄:32歲晉升P10,帶領團隊將千問模型全球下載量突破10億次,衍生模型超20萬款,成為全球開源領域的新標桿。其主導開發的Qwen3系列模型,通過"混合思考模式"實現了推理與指令的雙重能力,在行業引發持續討論。這場離職的直接導火索是組織架構調整分歧——阿里計劃將Qwen團隊按技術維度拆分整合,而林俊旸堅持垂直整合的研發模式,認為預訓練、后訓練與基礎設施必須緊密耦合。
在技術演進層面,林俊旸指出AI正經歷關鍵轉折。以OpenAI o1和DeepSeek-R1為代表的推理模型,通過強化學習訓練出"思考"能力,證明模型可通過專門訓練獲得推理專長。但2025年行業陷入"讓模型想得更多"的競賽,過度追求推理鏈長度導致效率失衡。他以Qwen3的實踐為例,揭示混合模式面臨的根本矛盾:指令模型追求簡潔高效,思考模型需要深度探索,兩者數據需求存在結構性沖突。盡管團隊嘗試四階段后訓練流水線,但最終不得不推出獨立的Instruct和Thinking版本以滿足不同用戶需求。
Anthropic的Claude系列提供了另一種路徑。其3.7和4.0版本通過可控思考預算、工具集成和行動交錯執行,將推理深度與任務需求精準匹配。林俊旸特別強調這種"思考服務于行動"的理念,指出真正智能體應具備環境交互、工具調用、策略修正等閉環能力。這與傳統推理模型形成本質區別——前者像閉卷考試,以最終答案正確性為評判標準;后者如現實項目,需在持續互動中解決問題。
智能體訓練對基礎設施提出全新要求。傳統推理強化學習的封閉評估環境,被復雜工具鏈、動態環境反饋和長程記憶系統取代。林俊旸指出,訓練與推理解耦、環境質量、反作弊機制成為關鍵挑戰。一個編程智能體可能通過未來信息泄漏或日志濫用"優化"表現,而非真正解決問題。這種"獎勵劫持"風險隨著工具能力增強呈指數級上升,要求行業重新設計評估體系和環境構建標準。
這場技術路線之爭折射出AI發展的深層變革。當模型能力突破臨界點后,系統級創新開始占據主導地位。從單一模型訓練到智能體生態構建,不僅涉及算法突破,更需要環境工程、評估體系、多智能體協調等跨領域能力。林俊旸的實踐表明,真正的技術領先不在于參數規模或推理長度,而在于如何讓AI在真實世界中持續產生有效行動。























