NVIDIA 發表 SpatialClaw：讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

打破視覺語言模型的空間推理瓶頸

視覺語言模型（VLM）長期以來在處理 3D 空間關係時面臨挑戰，難以精確判斷物體位置、相互關係及運動軌跡。NVIDIA Research 近期發布了 SpatialClaw，這是一套無需重新訓練（Training-Free）的框架，旨在透過改變 AI 代理（Agent）調用感知工具的「行動介面」來解決此問題。

研究團隊認為，現有模型的瓶頸在於介面設計。SpatialClaw 的核心邏輯是將「程式碼」視為行動介面，讓 AI 代理能夠靈活組合感知工具的輸出，並在發現錯誤時進行修正。在 20 項基準測試中，SpatialClaw 取得了 59.9% 的平均準確率，相較於同類空間代理工具 SpaceTools，準確率提升了 11.2 個百分點。

運作機制：程式碼即行動介面

SpatialClaw 的運作基礎是一個封裝在狀態化 Python 核心中的代理迴圈。該核心預載了輸入影像幀與多項感知基礎工具（Primitives）。其運作流程包含五個階段：規劃、程式碼生成、執行、回饋組裝，以及提交最終答案。

系統暴露了六個公開入口點，其中最關鍵的感知工具包括：

tools.Reconstruct：封裝 Depth Anything 3，用於返回深度圖、相機內外參及稠密點雲。
tools.SAM3：封裝 SAM 3，根據文字、點或框提示生成影像與影片遮罩。

研究團隊透過比較三種行動介面發現，傳統的「單次執行（Single-pass）」或「結構化工具呼叫（Structured tool-call）」往往因無法在測試時進行運算修正而產生誤差。相比之下，SpatialClaw 允許 AI 在執行過程中檢查中間結果，例如在計算物體距離時，若發現質心計算不夠精確，代理會自動切換至 scipy.spatial.KDTree 進行更精準的空間查詢。

效能實證與應用場景

在 Gemma4-31B 等六種不同規模的骨幹模型測試中，SpatialClaw 均優於無工具基準。特別是在需要跨幀與跨視角進行幾何運算的動態任務中，提升幅度最為顯著，例如 DSI-Bench 提升了 17.6 個百分點，MindCube 則提升了 15.3 個百分點。

SpatialClaw 透過程式碼組合實現的效能提升，佔了整體勝出的 52.2%，控制流邏輯佔 19.5%，其餘 28.3% 則屬於介面中立因素。

由於該系統無需額外訓練，開發者可直接將其應用於現有的 VLM 部署中，適用場景包括：

機器人與具身智慧：在執行動作前測量物體間的度量距離。
多視角檢測：從多個相機角度還原物體的朝向。
影片與 4D 分析：追蹤物體或相機在時間軸上的運動軌跡。
室內場景問答：如判斷門與水槽的相對位置。

目前 SpatialClaw 的程式碼已開源，並提供基於 LangGraph 與 Jupyter 核心的開發環境供研究人員使用。

NVIDIA 發表 SpatialClaw：讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

編輯核心觀點

打破視覺語言模型的空間推理瓶頸

運作機制：程式碼即行動介面

效能實證與應用場景

資料來源

相關文章

AI 發展雙軌並進：Meta 腦機介面解碼突破與 Anthropic Claude 5 效能升級

AI 多代理系統頻頻出包？賓州州立大學與 Google DeepMind 聯手破解「自動化故障歸因」難題

參數僅 3B 卻能挑戰千億級模型！微博團隊發表 VibeThinker-3B，揭開「推理特化」新路徑

Steam Next Fest 試玩精選：從 5D 平台跳躍到職場模擬，獨立遊戲界的創意大爆發