返回首頁

機器人導航新突破:字節跳動發表 Astra 雙模型架構,解決室內定位與路徑規劃難題

編輯核心觀點

  • 字節跳動開發 Astra 導航架構,透過 Astra-Global 與 Astra-Local 雙模型分工解決機器人移動難題。
  • Astra-Global 運用多模態大語言模型進行精準定位,在未知環境下的定位準確率達到 99.9%。
  • Astra-Local 則整合 4D 時空編碼與流匹配技術,實現高效的即時路徑規劃與感測器融合里程計估算。
機器人導航新突破:字節跳動發表 Astra 雙模型架構,解決室內定位與路徑規劃難題

隨著機器人在工業製造與日常生活的應用日益普及,傳統導航系統在處理複雜室內環境時,常因規則過於僵化而面臨挑戰。為了讓機器人能精確回答「我在哪裡」、「我要去哪」以及「如何抵達」等核心問題,字節跳動(ByteDance)發表了名為 Astra 的創新雙模型導航架構,旨在推動通用型移動機器人的發展。

雙模型架構:分工處理全局與局部任務

Astra 的設計遵循「系統 1/系統 2(System 1/System 2)」範式,將導航任務拆分為兩個子模型:

  • Astra-Global(全局大腦):負責低頻率的目標定位與自我定位。
  • Astra-Local(局部助手):負責高頻率的局部路徑規劃與里程計估算。

這種架構解決了過去導航系統中,多個小型規則模組整合困難的痛點,使機器人能更靈活地適應環境。

Astra-Global:多模態定位核心

Astra-Global 扮演著「大腦」的角色,它是一個多模態大型語言模型(MLLM),能同時處理視覺與語言輸入。該模型透過離線構建的「混合拓撲語義圖(Hybrid Topological-Semantic Graph)」作為上下文基礎,實現從粗略到精細的兩階段定位。

實驗顯示,結合群體相對策略優化(GRPO)訓練後的 Astra-Global,在未知居家環境下的定位準確率高達 99.9%,顯著優於僅使用監督式微調(SFT)的方法。

Astra-Local:即時路徑規劃與感知

Astra-Local 則專注於高頻任務,其核心組件包括 4D 時空編碼器、規劃頭(Planning Head)與里程計頭(Odometry Head)。

該模型利用 4D 時空編碼器取代傳統的感知與預測模組,透過 Vision Transformer(ViT)將全景影像轉換為 3D 體素特徵,並預測未來環境狀態。在路徑規劃上,Astra-Local 採用基於 Transformer 的流匹配技術生成可行軌跡,並引入遮罩歐幾里得符號距離場(Masked ESDF)損失函數,大幅降低了機器人的碰撞率。

此外,里程計頭透過融合 IMU 與輪速計等感測器數據,顯著提升了旋轉精確度並減少了軌跡誤差。透過在倉庫、辦公室與居家等多樣化室內環境的廣泛實驗,Astra 展現了在處理文字與圖像導航指令上的卓越能力,為通用型移動機器人提供了更具彈性的導航解決方案。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章