巨人財經 - 專業科技行業財經媒體

英偉達Fast-ThinkAct:讓機器人“心算”決策,速度飆升還更精準!

   發布時間:2026-01-22 19:46 作者:趙云飛

在咖啡店忙碌的場景中,咖啡師能高效處理復雜訂單,無需逐字念出制作流程,這種內化的思考方式讓工作得以流暢進行。如今,英偉達的研究人員正將這種高效思維模式引入機器人領域。他們發布的Fast-ThinkAct研究,為機器人大腦帶來了一次關鍵升級,使其在處理復雜任務時既快速又精準。

過去幾年,視覺-語言-動作模型(VLA)是人工智能領域的熱門方向。這類模型為機器人賦予了“超級大腦”,使其能接收口頭指令,觀察環境并規劃動作完成任務。然而,最新研究發現,讓機器人在行動前先進行類似人類打草稿的推理,能顯著提升其完成復雜任務的能力。這種鏈式思維(CoT)方法,讓機器人像寫作文一樣逐步推導,但問題也隨之而來。

一個會思考的機器人在做決定前,可能需要生成約250個詞元的推理文字。在真實場景中,這種延遲是難以接受的。以工廠里的機器人手臂為例,它每秒需做出1到15次決策,若每次決策都要幾秒思考,生產線將嚴重受阻。在輔助手術或緊急救援等對時間敏感的場景中,延遲更可能帶來安全隱患。

為解決這一問題,Fast-ThinkAct研究團隊提出創新方案:讓機器人學會“心算”,將冗長的推理過程壓縮成幾個緊湊的“念頭”,即“可言語化的潛在推理”,然后直接據此行動。實驗表明,Fast-ThinkAct將機器人的推理時間縮短了高達89.3%,同時任務表現不僅未下降,反而有所提升。

Fast-ThinkAct的工作原理可通過“老師-學生”故事來理解。研究團隊先訓練一個教師模型,它面對機器人看到的場景和收到的指令,會生成完整的文字推理過程。例如,看到草莓在桌子右邊、抽屜在左前方時,教師模型會詳細規劃機械臂的移動步驟。該模型采用GRPO強化學習方法訓練,確保推理既合邏輯又能指導任務完成。教師生成的推理質量參差不齊,這卻成為訓練學生模型的關鍵素材。

學生模型的任務是將教師的長篇推理濃縮成幾個連續的潛在詞元。當教師需生成約250個文字詞元時,學生只需生成6個潛在詞元。為確保壓縮后的推理質量,研究團隊引入言語化器,它是一個小型語言模型,能將學生模型的抽象“精華”翻譯回人類可讀文字,以便研究人員檢查其是否學到教師推理的精髓。

訓練過程采用偏好學習策略,靈感來自DPO技術。研究團隊從教師模型生成的眾多推理版本中,挑出質量最高和最低的配對,讓學生模型學習生成能被言語化器解碼為高質量推理的精華。這就像訓練調酒師,讓其通過品嘗好酒和差酒的區別,真正理解好酒的味道。

除壓縮思考能力,機器人還需理解空間關系以完成實際任務。Fast-ThinkAct的第二個創新是視覺規劃的蒸餾。研究團隊引入動作對齊的視覺規劃蒸餾方法,教師模型在訓練中不僅學會語言推理,還學會用軌跡級獎勵指導自己,關注機器人手臂移動路徑的合理性。通過對齊教師和學生在關鍵位置的內部表征,確保學生模型雖說話簡短,但對空間的理解不打折扣。

為提升效率,研究團隊還設計空間詞元機制。傳統教師模型預測機器人手臂運動軌跡時,需逐個生成途經點坐標,描述5個路徑點可能要生成60到70個詞元。而學生模型使用5個專門的可學習空間詞元,每個空間詞元輸出通過簡單網絡層投影到路徑點坐標,大大提升了預測的并行性和速度。

有了壓縮推理和空間理解能力,最后一步是將這些智慧轉化為實際動作。Fast-ThinkAct框架的第三個核心組件是推理增強的策略學習。動作模型采用擴散Transformer架構,通過鍵值緩存提取學生模型處理空間詞元時產生的中間狀態,作為視覺規劃上下文傳遞給動作模型。動作模型的注意力機制同時關注視覺規劃上下文和直接感知觀察,做出符合高級規劃又適應當前情況的動作決策。訓練動作模型時,學生模型和視覺編碼器參數凍結,確保推理能力不被遺忘,動作模型專注于執行力提升。

實驗驗證了Fast-ThinkAct的出色效果。與當時最先進的推理VLA模型ThinkAct-7B相比,Fast-ThinkAct推理延遲減少89.3%,每次決策時間從約7513毫秒降至約805毫秒,與同等規模的ThinkAct-3B相比也快了約7倍。在性能方面,Fast-ThinkAct在LIBERO基準測試中平均成功率達89.7%,超過所有對比方法;在SimplerEnv-Google測試中成功率達68.7%,略高于ThinkAct-7B;在更具挑戰性的RoboTwin2.0基準上,簡單模式平均成功率65.7%,困難模式26.4%,均超過基線方法,長程任務中表現尤為突出。

Fast-ThinkAct還展現出故障恢復、小樣本適應和長程規劃等特別能力。在RoboFAC基準上,它識別故障并提供恢復指導的能力出色,模擬環境得分91.1%,真實機器人環境得分78.9%,分別比第二名高出10.9分和16.4分。例如,機器人抓勺子抓空時,它能分析視頻并給出準確恢復建議。在RoboTwin2.0小樣本測試中,它在中等復雜度任務上成功率56.5%,長程任務上16.8%,顯著高于其他方法。對于長程規劃任務,其生成的視覺軌跡預測能準確描繪完成路徑,內部推理表征為動作執行提供有效指導。

研究團隊設計的言語化器讓我們能了解機器人的“內心世界”。對比教師模型原始推理和學生模型言語化推理輸出發現,學生模型推理更精煉且準確。例如在拿起玻璃杯任務中,學生模型推理更簡潔地表明任務成功完成;在判斷房間是否在一樓的例子中,學生模型注意到關鍵視覺線索給出正確答案,而教師模型推理冗長卻給出錯誤答案。

消融實驗驗證了框架各組件的貢獻。移除言語化損失后,模型在EgoPlan-Bench2和RoboVQA上得分下降;進一步移除蒸餾損失,性能繼續下降。完整Fast-ThinkAct比教師模型更快且性能更好,6個潛在詞元達到最佳平衡。不過,研究也存在局限性,言語化器基于預訓練語言模型構建,可能產生幻覺,但主要影響解釋性,對動作執行影響不大。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新