返回首頁

NVIDIA 發表 SpatialClaw:讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

編輯核心觀點

  • NVIDIA Research 推出 SpatialClaw 框架,透過將「程式碼」作為 AI 的行動介面,解決視覺語言模型在 3D 空間感知上的推理瓶頸。
  • 該系統無需額外訓練,透過持續性的 Python 核心與感知工具鏈,在 20 項基準測試中達到 59.9% 的平均準確率。
  • 實驗顯示,相較於傳統結構化工具呼叫,SpatialClaw 能在推理過程中即時檢查並修正計算結果,特別在動態 4D 與多視角任務中表現顯著提升。
NVIDIA 發表 SpatialClaw:讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

打破視覺語言模型的空間推理瓶頸

視覺語言模型(VLM)長期以來在處理 3D 空間關係時面臨挑戰,難以精確判斷物體位置、相互關係及運動軌跡。NVIDIA Research 近期發布了 SpatialClaw,這是一套無需重新訓練(Training-Free)的框架,旨在透過改變 AI 代理(Agent)調用感知工具的「行動介面」來解決此問題。

研究團隊認為,現有模型的瓶頸在於介面設計。SpatialClaw 的核心邏輯是將「程式碼」視為行動介面,讓 AI 代理能夠靈活組合感知工具的輸出,並在發現錯誤時進行修正。在 20 項基準測試中,SpatialClaw 取得了 59.9% 的平均準確率,相較於同類空間代理工具 SpaceTools,準確率提升了 11.2 個百分點。

運作機制:程式碼即行動介面

SpatialClaw 的運作基礎是一個封裝在狀態化 Python 核心中的代理迴圈。該核心預載了輸入影像幀與多項感知基礎工具(Primitives)。其運作流程包含五個階段:規劃、程式碼生成、執行、回饋組裝,以及提交最終答案。

系統暴露了六個公開入口點,其中最關鍵的感知工具包括:

  • tools.Reconstruct:封裝 Depth Anything 3,用於返回深度圖、相機內外參及稠密點雲。
  • tools.SAM3:封裝 SAM 3,根據文字、點或框提示生成影像與影片遮罩。

研究團隊透過比較三種行動介面發現,傳統的「單次執行(Single-pass)」或「結構化工具呼叫(Structured tool-call)」往往因無法在測試時進行運算修正而產生誤差。相比之下,SpatialClaw 允許 AI 在執行過程中檢查中間結果,例如在計算物體距離時,若發現質心計算不夠精確,代理會自動切換至 scipy.spatial.KDTree 進行更精準的空間查詢。

效能實證與應用場景

在 Gemma4-31B 等六種不同規模的骨幹模型測試中,SpatialClaw 均優於無工具基準。特別是在需要跨幀與跨視角進行幾何運算的動態任務中,提升幅度最為顯著,例如 DSI-Bench 提升了 17.6 個百分點,MindCube 則提升了 15.3 個百分點。

SpatialClaw 透過程式碼組合實現的效能提升,佔了整體勝出的 52.2%,控制流邏輯佔 19.5%,其餘 28.3% 則屬於介面中立因素。

由於該系統無需額外訓練,開發者可直接將其應用於現有的 VLM 部署中,適用場景包括:

  • 機器人與具身智慧:在執行動作前測量物體間的度量距離。
  • 多視角檢測:從多個相機角度還原物體的朝向。
  • 影片與 4D 分析:追蹤物體或相機在時間軸上的運動軌跡。
  • 室內場景問答:如判斷門與水槽的相對位置。

目前 SpatialClaw 的程式碼已開源,並提供基於 LangGraph 與 Jupyter 核心的開發環境供研究人員使用。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章