巨人財經 - 專業科技行業財經媒體

谷歌Gemini 3.1 Pro登場:推理能力躍升,價格親民攪動AI競爭新局

   發布時間:2026-02-20 13:32 作者:江紫萱

在AI領域競爭白熱化的當下,谷歌攜Gemini 3.1 Pro強勢入局,為這場技術盛宴再添一把火。當地時間2月19日,谷歌正式發布這款備受矚目的新模型,沒有華麗的宣傳辭藻,而是用一組亮眼的數據彰顯實力。

在公認的推理基準測試ARC-AGI-2中,Gemini 3.1 Pro斬獲77.1%的高分,這一成績令人驚嘆。與前代Gemini 3 Pro的31.1%相比,實現了推理能力的飛躍式提升,就連主打“深度思考”的Gemini 3 Deep Think也僅取得45.1%的成績,差距一目了然。這種突破并非漸進式的改進,而是近乎翻倍式的跨越,無疑為AI推理領域樹立了新的標桿。

更值得關注的是,谷歌此次采用了極具“反商業”色彩的策略——價格不變。Gemini 3.1 Pro延續了Gemini 3 Pro的定價結構,相當于為所有API用戶免費升級了推理能力。JetBrains的AI總監Vladislav Tankov在測試后評價道,新版本相比之前有15%的質量提升,“更強、更快且更高效,所需輸出tokens更少”。這種“暴力美學”式的升級,讓人不禁聯想到早期谷歌以技術實力碾壓對手的風格。

此次版本號的選擇也頗具深意。谷歌首次采用“3.1”這樣的增量版本號,在軟件行業,“.1”通常意味著重要功能更新而非顛覆性架構重構。這一選擇向市場傳遞出明確信號:谷歌還有更多“大招”尚未釋放,此次發布只是階段性成果。

從企業客戶的反饋來看,Gemini 3.1 Pro的“威力”已初步顯現。Databricks的CTO表示,新模型在OfficeQA基準測試中取得“同類最佳結果”;Cartwheel聯合創始人指出,模型對3D變換的理解顯著提升,解決了3D動畫管道中長期存在的旋轉順序問題;Box AI的企業評估數據更為直觀:在醫療和生命科學領域,準確性從47%躍升至67%;在法律任務中,準確性從57%提升至74%。這些數據均來自真實商業場景,驗證了模型的實際應用價值。

當前,AI競爭已進入“推理紀元”。過去一年,行業比拼的是模型“聰明程度”,而Gemini 3.1 Pro的發布策略,或將游戲規則轉向“性價比”。在多數基準測試中,該模型領先于Anthropic的Opus 4.6和OpenAI的GPT-5.2,但價格僅為Opus 4.6的一半。這種優勢對大量使用AI API的企業客戶極具吸引力。

一位開發者在社區分享的案例頗具代表性:他僅用一個提示,就讓Gemini 3.1 Pro構建出功能完整的Windows 11風格網絡操作系統,涵蓋文本編輯器、Python終端、代碼編輯器、文件管理器、繪畫應用和可玩游戲。這種“一個提示解決復雜問題”的能力,正是推理模型的核心價值所在。

當然,Gemini 3.1 Pro并非完美無缺。在衡量真實世界經濟任務的基準測試GDPval-AA中,其得分為1317分,明顯低于Anthropic Sonnet 4.6的1633分。這表明,即便是最先進的AI模型,在處理復雜現實問題時仍存在局限性。

從技術層面看,Gemini 3.1 Pro與谷歌新型代理開發平臺Antigravity深度集成,開發者可靈活切換“推理預算”,在速度和準確性之間找到平衡。這種靈活性可能成為未來AI應用開發的新范式。從商業邏輯看,谷歌選擇“性能翻倍、價格不變”的策略,本質上是利用規模經濟對抗技術溢價,通過成本優勢提供更具競爭力的服務。

這場AI軍備競賽正從“技術炫技”回歸“商業本質”。谷歌此次發布Gemini 3.1 Pro,讓人看到其“用技術改變世界、用創新降低門檻”的初心。盡管過去幾年谷歌飽受爭議,但在AI這一關鍵領域,它似乎正在找回自己的節奏。不過,OpenAI和Anthropic等競爭對手不會輕易讓出市場,推理能力的競爭才剛剛拉開序幕。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新