機器人學會「自我除錯」:NVIDIA 聯手頂尖大學開發 ASPIRE 框架,讓 AI 機器人具備經驗傳承能力
編輯核心觀點
- ✦ASPIRE 框架透過「持續學習」機制,將機器人執行任務失敗的經驗轉化為可重複使用的技能庫。
- ✦系統採用「閉環執行引擎」,能精確定位感知、規劃或動作失敗的根本原因,而非僅依賴模糊的任務回饋。
- ✦在 LIBERO-Pro 測試中,ASPIRE 的零樣本(Zero-Shot)成功率達到 31%,遠高於過往方法的 4%。

機器人程式設計的規模化難題
傳統機器人程式設計極難擴展,因為開發者必須手動處理多模態感知、物理接觸動力學及各種複雜配置。雖然「程式即策略(Code-as-policy)」系統允許大型語言模型將這些需求轉化為可執行的程式碼,但現有的機器人代理程式(Agent)多在缺乏回饋的環境中運行。當任務失敗時,系統往往無法得知原因,導致機器人無法從錯誤中累積經驗,解決第一百個任務時與第一個任務時同樣生疏。
ASPIRE:具備自我迭代能力的機器人框架
由 NVIDIA、密西根大學、伊利諾大學厄巴納-香檳分校(UIUC)、加州大學柏克萊分校及卡內基美隆大學(CMU)組成的研究團隊,共同開發了 ASPIRE(Agentic Skill Programming through Iterative Robot Exploration)。這是一個持續學習系統,不僅能編寫與優化機器人控制程式,還能將驗證後的修復方案提煉為可轉移的技能庫。
ASPIRE 的運作核心包含三個關鍵要素:
- 協調者-執行者架構(Coordinator–actor architecture):中央協調者負責管理共享技能庫,並將任務分配給執行代理程式。
- 閉環機器人執行引擎:系統會儲存每個感知、規劃與控制指令的輸入、輸出及狀態,包括 RGB 關鍵影格、抓取候選點與動作規劃結果。當任務失敗時,代理程式能精確定位故障點並進行修復驗證。
- 演化搜尋:為了避免陷入重複修復同一錯誤的迴圈,ASPIRE 每一輪會提出多個候選程式,探索不同的策略路徑。
實戰案例:從失敗中提取技能
研究團隊以「拾取桌上收音機」的任務為例。當機器人因目標位置位於碰撞規避緩衝區內而導致規劃錯誤時,ASPIRE 能夠分析執行軌跡,並自動編寫一段採樣不同角度的導航修復程式。一旦該修復方案驗證成功,它便會被納入技能庫,成為未來處理類似導航障礙時的通用技能。
效能表現與跨平台轉移
在基準測試中,ASPIRE 展現了顯著的進步。在 LIBERO-Pro 測試中,其在物件、目標與空間擾動方面的得分最高提升了 77 分;在 Robosuite 的雙手交接任務中,成功率從 20% 大幅躍升至 92%。此外,研究團隊將模擬環境中習得的技能轉移至真實的雙手機器人系統(YAM station)上,成功降低了除錯成本,例如飲料罐拾取任務的成功率從 13/20 提升至 19/20,且使用的 Token 數量減少了約 10 倍。
這項研究顯示,透過將失敗經驗轉化為結構化的程式碼技能,機器人代理程式終於能擺脫「一次性執行」的限制,實現真正的跨任務學習與能力積累。



