AI“智障”時刻頻現，空間智能能否補齊人工智能發展短板？

發布時間：2025-12-03 09:00 來源：快訊作者：胡穎

當人工智能在文本生成、圖像創作和視頻制作領域掀起變革浪潮時，科學家們卻將目光投向了更深層的挑戰——如何讓AI真正理解物理世界的運行邏輯。美國三院院士李飛飛近日在社交媒體發布的萬字長文《從語言到世界：空間智能是AI的下一個前沿》，在學術圈引發連鎖反應。這位ImageNet數據庫的締造者直指當前AI的致命缺陷：大語言模型和圖像分類器已觸及發展天花板，唯有突破空間智能瓶頸，才能開啟真正的智能時代。

社交平臺上的"人工智障"現象暴露了現有技術的荒誕性。某用戶上傳的沙漠合影中，AI在添加駱駝時鬧出大笑話——兩只體型堪比猛犸象的駱駝站在孩童身后，還額外"贈送"了長頸鹿脖子的蒼狐和兔子。OpenAI的文生視頻模型Sora更是在2024年春節期間貢獻了經典案例：其生成的螞蟻視頻中，這些六足生物竟集體"截肢"成四條腿。這種常識性錯誤讓AI領域兩位泰斗級人物罕見達成共識：楊立昆揶揄"螞蟻確實有六條腿"，而加里·馬庫斯則警告"今天搞錯螞蟻，明天就可能算錯月球軌道"。升級后的Sora2雖然畫面流暢度提升，但男子揮舞的棍子流蘇時隱時現，再次印證了AI在物理邏輯上的根本缺陷。

西湖大學空間智能實驗室負責人劉沛東指出，當前AI系統的核心困境在于缺乏對物理世界的常識性認知。這種缺陷導致無論文本還是多模態模型，生成內容都可能因缺失"內在錨點"而違背常理。他以"買咖啡"的指令為例，強調真正智能體需要具備自主拆解任務、規劃路徑并應對環境變化的能力。這種能力恰恰依賴于對三維空間的感知、推理與行動閉環，而這正是空間智能的核心要義。

空間智能概念源自教育心理學領域。上世紀八十年代，霍華德·加德納在多元智能理論中將其定義為對空間信息的感知、理解與操作能力。這種人類與生俱來的本能，在文明進程中屢建奇功：埃拉托色尼通過日影測量地球周長，哈格里夫斯用空間構想革新紡織機械，沃森與克里克通過分子模型破解DNA結構。當科學家將這種能力遷移至AI領域時，發現其涉及三維思維、圖形敏感性和空間想象等多個維度，是連接數字世界與物理世界的橋梁。

產業界已涌現出空間智能的初步應用：手機AR測量工具、VR眼鏡、掃地機器人，甚至能握手互動的機器狗。但這些技術仍存在明顯短板——掃地機器人常因環境雜亂導致傳感器誤判，自動駕駛系統在復雜路況下仍存在安全隱患。劉沛東分析稱，理想的空間智能應構建"感知-推理-行動"的完整鏈條，當前技術雖在感知和執行層面取得進展，但缺乏理解物理規則、進行因果預測的內部模型。例如自動駕駛汽車能識別常規障礙物，卻難以通過地上小球推斷出即將沖出的孩童。

世界模型成為突破空間智能的關鍵路徑。這種模仿人類大腦"內部世界"構建能力的工具，能讓AI像人類一樣整合感官信息，對物理世界進行直覺推理。2025年科技產業掀起世界模型研發熱潮：英偉達在CES展上推出Cosmos模型，可生成"物理感知"視頻；群核科技開源的SpatialLM模型登上HuggingFace趨勢榜第二；谷歌DeepMind發布的Genie 3支持實時交互，為游戲開發和創意設計開辟新可能；李飛飛參與創立的World Lab更推出首款多模態產品Marble，用戶可通過文本、照片或3D布局圖生成可編輯的虛擬環境。

盡管前景廣闊，世界模型仍面臨多重挑戰。真實世界的復雜性與不確定性遠超現有數學模型的處理能力，地球內部構造等難以獲取的數據限制著模型精度，暗物質等未解物理現象更造成實驗數據缺口。這些難題提醒著科技界：打造真正理解物理世界的AI，既需要顛覆性的理論突破，也離不開跨學科的協同攻關。當芯片巨頭、科研機構和初創公司紛紛押注這條新賽道時，人類距離"像人一樣干活"的智能體，或許還有很長的路要走。

更多>同類內容