當人工智能在文本生成、圖像創作和視頻制作領域掀起變革浪潮時,科學家們卻將目光投向了更深層的挑戰——如何讓AI真正理解物理世界的運行邏輯。美國三院院士李飛飛近日在社交媒體發布的萬字長文《從語言到世界:空間智能是AI的下一個前沿》,在學術圈引發連鎖反應。這位ImageNet數據庫的締造者直指當前AI的致命缺陷:大語言模型和圖像分類器已觸及發展天花板,唯有突破空間智能瓶頸,才能開啟真正的智能時代。
社交平臺上的"人工智障"現象暴露了現有技術的荒誕性。某用戶上傳的沙漠合影中,AI在添加駱駝時鬧出大笑話——兩只體型堪比猛犸象的駱駝站在孩童身后,還額外"贈送"了長頸鹿脖子的蒼狐和兔子。OpenAI的文生視頻模型Sora更是在2024年春節期間貢獻了經典案例:其生成的螞蟻視頻中,這些六足生物竟集體"截肢"成四條腿。這種常識性錯誤讓AI領域兩位泰斗級人物罕見達成共識:楊立昆揶揄"螞蟻確實有六條腿",而加里·馬庫斯則警告"今天搞錯螞蟻,明天就可能算錯月球軌道"。升級后的Sora2雖然畫面流暢度提升,但男子揮舞的棍子流蘇時隱時現,再次印證了AI在物理邏輯上的根本缺陷。
西湖大學空間智能實驗室負責人劉沛東指出,當前AI系統的核心困境在于缺乏對物理世界的常識性認知。這種缺陷導致無論文本還是多模態模型,生成內容都可能因缺失"內在錨點"而違背常理。他以"買咖啡"的指令為例,強調真正智能體需要具備自主拆解任務、規劃路徑并應對環境變化的能力。這種能力恰恰依賴于對三維空間的感知、推理與行動閉環,而這正是空間智能的核心要義。
空間智能概念源自教育心理學領域。上世紀八十年代,霍華德·加德納在多元智能理論中將其定義為對空間信息的感知、理解與操作能力。這種人類與生俱來的本能,在文明進程中屢建奇功:埃拉托色尼通過日影測量地球周長,哈格里夫斯用空間構想革新紡織機械,沃森與克里克通過分子模型破解DNA結構。當科學家將這種能力遷移至AI領域時,發現其涉及三維思維、圖形敏感性和空間想象等多個維度,是連接數字世界與物理世界的橋梁。
產業界已涌現出空間智能的初步應用:手機AR測量工具、VR眼鏡、掃地機器人,甚至能握手互動的機器狗。但這些技術仍存在明顯短板——掃地機器人常因環境雜亂導致傳感器誤判,自動駕駛系統在復雜路況下仍存在安全隱患。劉沛東分析稱,理想的空間智能應構建"感知-推理-行動"的完整鏈條,當前技術雖在感知和執行層面取得進展,但缺乏理解物理規則、進行因果預測的內部模型。例如自動駕駛汽車能識別常規障礙物,卻難以通過地上小球推斷出即將沖出的孩童。
世界模型成為突破空間智能的關鍵路徑。這種模仿人類大腦"內部世界"構建能力的工具,能讓AI像人類一樣整合感官信息,對物理世界進行直覺推理。2025年科技產業掀起世界模型研發熱潮:英偉達在CES展上推出Cosmos模型,可生成"物理感知"視頻;群核科技開源的SpatialLM模型登上HuggingFace趨勢榜第二;谷歌DeepMind發布的Genie 3支持實時交互,為游戲開發和創意設計開辟新可能;李飛飛參與創立的World Lab更推出首款多模態產品Marble,用戶可通過文本、照片或3D布局圖生成可編輯的虛擬環境。
盡管前景廣闊,世界模型仍面臨多重挑戰。真實世界的復雜性與不確定性遠超現有數學模型的處理能力,地球內部構造等難以獲取的數據限制著模型精度,暗物質等未解物理現象更造成實驗數據缺口。這些難題提醒著科技界:打造真正理解物理世界的AI,既需要顛覆性的理論突破,也離不開跨學科的協同攻關。當芯片巨頭、科研機構和初創公司紛紛押注這條新賽道時,人類距離"像人一樣干活"的智能體,或許還有很長的路要走。



















