阿里巴巴與新加坡國家人工智能計劃聯合推出的東南亞多語言大模型Qwen-SEA-LION-v4,近日在東南亞語言模型評估基準SEA-HELM開源榜單(參數量2000億以下組別)中斬獲榜首。這款由中新科研團隊共同研發的模型,標志著區域性語言處理技術取得突破性進展。
東南亞地區語言生態復雜,現存語言超過1200種,日常交流中多語言混用現象普遍。傳統AI模型多以英語為核心構建,難以適應本地化需求,導致區域AI應用長期面臨技術壁壘。此次合作研發的Qwen-SEA-LION-v4,正是為破解這一難題而生。該模型以阿里巴巴"通義千問"開源框架為基礎,通過針對性優化大幅提升了對東南亞小語種的處理能力。
技術團隊在模型構建過程中采取雙階段策略:預訓練階段覆蓋119種語言數據,重點強化對緬甸語、馬來語、泰米爾語等區域性語言的語義理解;后訓練階段則通過增加跨語言任務權重,使模型能夠準確識別混合輸入中的不同語言成分。這種設計使模型在處理包含多種語言的復雜文本時,展現出顯著優于傳統模型的性能表現。
目前該模型已通過新加坡人工智能計劃官網及國際開源社區HuggingFace向全球開放下載。研發團隊表示,模型開源將加速區域AI生態建設,為東南亞數字經濟發展提供底層技術支撐。此次突破不僅驗證了中新科技合作的有效性,也為多語言環境下的AI應用提供了新的技術范式。






















