多模態視覺語言測評：Gemini-3-pro登頂國內多款大模型表現亮眼

發布時間：2025-12-31 09:48 來源：互聯網作者：江紫萱

近日，SuperCLUE-VLM多模態視覺語言基準測評12月總榜正式揭曉，全球多款主流大模型在基礎認知、視覺推理、視覺應用三大核心維度展開激烈角逐，最終谷歌Gemini-3-pro以絕對優勢登頂榜首，國內多款模型憑借技術突破躋身前列，展現出中國人工智能領域的強勁實力。

谷歌Gemini-3-pro以83.64分的總成績領跑全場，其在三項細分指標中均表現卓越：基礎認知得分89.01分，視覺推理82.82分，視覺應用79.09分，三項數據均遠超其他競品。這一成績不僅鞏固了谷歌在多模態領域的領先地位，也為行業樹立了新的技術標桿。

國內陣營中，商湯科技SenseNova V6.5 Pro以75.35分位居第二，成為榜單中排名最高的國產模型。字節跳動旗下兩款模型表現亮眼：豆包大模型以73.15分躋身前三，其視覺版在基礎認知環節得分82.70分，甚至超越部分國際競品，僅在視覺推理環節稍顯不足；另一款模型則憑借均衡表現穩居前列。百度ERNIE-5.0-Preview、阿里巴巴Qwen3-vl等模型也成功進入前五，其中Qwen3-vl作為榜單中首個開源且總分超70分的模型，為開源社區貢獻了重要技術資產。

國際頭部模型在此次測評中表現分化。Anthropic的Claude-opus-4-5以71.44分位列第六，而OpenAI的GPT-5.2(high)僅獲69.16分，排名相對靠后。這一結果反映出，盡管國際巨頭在通用人工智能領域占據先發優勢，但國內模型通過針對性優化和垂直場景深耕，正在逐步縮小技術差距。

據測評機構介紹，本次評估從基礎認知能力、復雜視覺推理、實際應用場景適配性三個維度展開，覆蓋圖像理解、邏輯推斷、跨模態交互等關鍵技術指標。評測數據顯示，國內模型在中文語境下的語義理解、文化相關視覺內容處理等方面表現突出，而國際模型則在多語言支持、通用場景泛化能力上保持優勢。隨著技術迭代加速，多模態大模型正從實驗室走向實際應用，在醫療、教育、工業檢測等領域展現出巨大潛力。

更多>同類內容