24歲的胡文博,這位年輕的00后博士生,帶領團隊研發出一款名為G2VLM的超級AI模型,引發了科技界的廣泛關注。這款模型不僅具備從平面圖片中精準重建三維世界的能力,還能進行復雜的空間思考和推理,堪稱視覺語言領域的“空間小能手”。
與普通圖像識別軟件不同,G2VLM能夠理解物體的位置、距離和相互關系。例如,它不僅能識別出照片中的椅子,還能判斷椅子與桌子的距離、椅子的高度以及擺放方式。這種能力使得未來的機器人能夠更靈活地執行任務,AR/VR游戲的世界更加真實,自動駕駛汽車也能更精準地判斷距離和障礙物。
在SPAR-Bench測試中,G2VLM的總分超過了頂尖商業模型GPT-4o,位居榜首。在OmniSpatial、MindCube等多個空間推理測試基準中,它也取得了最優或極具競爭力的成績。盡管G2VLM的模型尺寸僅為4B參數,遠小于一些大型模型,但其在空間任務上的表現卻輕松超越了這些“大塊頭”,證明了其雙專家架構設計的高效性。
幾何感知專家擅長從2D圖片中解讀3D幾何信息,目標是弄清楚物體的深度、三維坐標和相機角度。語義感知專家則繼承了現有AI模型的優點,擅長理解圖片內容并用語言描述。兩位專家通過共享的注意力機制緊密相連,實時交流信息,使得G2VLM同時具備了看懂內容和理解空間的能力。
為了培養這樣一位“雙料專家”,胡文博為G2VLM設計了一套獨特的訓練方案。在第一階段,幾何感知專家單獨訓練,使用帶有精確三維標注的數據,練就一雙“火眼金睛”,光看照片就能在腦中構建三維模型。在第二階段,幾何感知專家與語義感知專家一起訓練,面對各種需要空間推理的問題,兩位專家不斷磨合,最終合體成為強大的G2VLM。
在三維重建測試中,G2VLM的表現與世界上最頂尖的專用三維重建模型不相上下,甚至在某些指標上更加出色。在空間推理測試中,它在包含深度比較、距離判斷、物體相對關系、空間想象等難題的綜合評測集上展現出了卓越的能力。
胡文博指出,G2VLM的首創性在于,它是首個在當前主流視覺語言模型架構中,原生地集成了從二維圖片直接預測三維信息的能力。以往理解三維空間需要依賴難以大規模獲取的額外標注信息,而G2VLM僅需任意角度拍攝的二維圖片,就能預測出三維信息并用于空間理解,這使得模型更具實用性和可擴展性。
胡文博本科就讀于美國加州大學圣地亞哥分校,曾跟隨機器人學與具身智能領域專家蘇昊進行研究,激發了他對3D和具身智能的濃厚興趣。隨后,他跟隨計算機視覺專家屠卓文進入視覺語言模型領域,參與開發了早期開源VLM模型BLIVA。本科畢業后,胡文博在美國加州大學洛杉磯分校攻讀碩士學位,繼續專注于VLM與3D空間結合的研究方向,完成了一系列相關工作,相關論文發表在NeurIPS、ICLR等機器學習頂級會議上,并獲得了CVPR Workshop最佳論文。





















