24歲00后博士生胡文博團隊打造G2VLM，為AI添空間超能力新翼

發布時間：2026-01-05 05:12 來源：快訊作者：朱天宇

24歲的胡文博，這位年輕的00后博士生，帶領團隊研發出一款名為G2VLM的超級AI模型，引發了科技界的廣泛關注。這款模型不僅具備從平面圖片中精準重建三維世界的能力，還能進行復雜的空間思考和推理，堪稱視覺語言領域的“空間小能手”。

與普通圖像識別軟件不同，G2VLM能夠理解物體的位置、距離和相互關系。例如，它不僅能識別出照片中的椅子，還能判斷椅子與桌子的距離、椅子的高度以及擺放方式。這種能力使得未來的機器人能夠更靈活地執行任務，AR/VR游戲的世界更加真實，自動駕駛汽車也能更精準地判斷距離和障礙物。

在SPAR-Bench測試中，G2VLM的總分超過了頂尖商業模型GPT-4o，位居榜首。在OmniSpatial、MindCube等多個空間推理測試基準中，它也取得了最優或極具競爭力的成績。盡管G2VLM的模型尺寸僅為4B參數，遠小于一些大型模型，但其在空間任務上的表現卻輕松超越了這些“大塊頭”，證明了其雙專家架構設計的高效性。

幾何感知專家擅長從2D圖片中解讀3D幾何信息，目標是弄清楚物體的深度、三維坐標和相機角度。語義感知專家則繼承了現有AI模型的優點，擅長理解圖片內容并用語言描述。兩位專家通過共享的注意力機制緊密相連，實時交流信息，使得G2VLM同時具備了看懂內容和理解空間的能力。

為了培養這樣一位“雙料專家”，胡文博為G2VLM設計了一套獨特的訓練方案。在第一階段，幾何感知專家單獨訓練，使用帶有精確三維標注的數據，練就一雙“火眼金睛”，光看照片就能在腦中構建三維模型。在第二階段，幾何感知專家與語義感知專家一起訓練，面對各種需要空間推理的問題，兩位專家不斷磨合，最終合體成為強大的G2VLM。

在三維重建測試中，G2VLM的表現與世界上最頂尖的專用三維重建模型不相上下，甚至在某些指標上更加出色。在空間推理測試中，它在包含深度比較、距離判斷、物體相對關系、空間想象等難題的綜合評測集上展現出了卓越的能力。

胡文博指出，G2VLM的首創性在于，它是首個在當前主流視覺語言模型架構中，原生地集成了從二維圖片直接預測三維信息的能力。以往理解三維空間需要依賴難以大規模獲取的額外標注信息，而G2VLM僅需任意角度拍攝的二維圖片，就能預測出三維信息并用于空間理解，這使得模型更具實用性和可擴展性。

胡文博本科就讀于美國加州大學圣地亞哥分校，曾跟隨機器人學與具身智能領域專家蘇昊進行研究，激發了他對3D和具身智能的濃厚興趣。隨后，他跟隨計算機視覺專家屠卓文進入視覺語言模型領域，參與開發了早期開源VLM模型BLIVA。本科畢業后，胡文博在美國加州大學洛杉磯分校攻讀碩士學位，繼續專注于VLM與3D空間結合的研究方向，完成了一系列相關工作，相關論文發表在NeurIPS、ICLR等機器學習頂級會議上，并獲得了CVPR Workshop最佳論文。

更多>同類內容