在AI編程能力評測領域,全球權威盲測平臺LMArena旗下Code Arena榜單迎來重要更新。阿里巴巴最新發布的大語言模型Qwen 3.6-Plus在React專項評測中以1452分躋身全球第二,成為首個在該榜單超越OpenAI、Google等國際巨頭的中國大模型。這一成績標志著國產模型在復雜Web開發場景下的工程化能力實現重大突破。
作為AI領域最具公信力的性能評測平臺,LMArena采用真實用戶盲測與實時對抗機制,其React專項榜單聚焦AI Coding領域最前沿技術方向。該評測要求模型在無人干預條件下完成從項目初始化到調試運行的全流程開發,全面考察自主編碼、工程思維及端到端開發能力。Qwen 3.6-Plus此次挑戰的正是這項被視為"AI編程能力試金石"的高難度評測。
技術分析顯示,Qwen 3.6-Plus在代碼生成與Agent能力方面表現尤為突出。該模型于4月2日正式發布,具備原生多模態理解與推理能力,在多項權威編程評測中持續領先。相較于參數量達其2-3倍的GLM-5、Kimi-K2.5等模型,千問3.6系列通過架構優化實現了更高效的參數利用,以更小模型規模達成更強性能表現。在React專項評測中,其得分僅落后Anthropic旗下Claude-Opus-4.6-Thinking(1540分)88分,卻領先OpenAI最新發布的GPT-5.0-High(1448分)4分,較Google的Gemini 3.1 Pro Preview(1440分)優勢達12分。
全球開發者社區對這款新模型給予高度關注。發布首日即引發技術圈熱烈討論,次日便在React榜單斬獲亞軍位置。在綜合評估編程能力的Code Arena總榜中,Qwen 3.6-Plus同樣穩居國產模型首位。憑借此次突破性表現,阿里巴巴在全球AI實驗室排名中躍升至第四位,緊隨Anthropic、OpenAI和Google之后。
據研發團隊透露,Qwen 3.6-Plus作為千問3.6系列的首發模型,后續將開源不同參數規模的版本供開發者使用。性能更強的旗艦模型Qwen3.6-Max已完成研發,預計將于近期正式發布。這一系列動作顯示阿里巴巴正加速構建完整的AI模型生態體系,持續推動國產大模型在工程化應用領域的創新發展。






















