機器人導航新突破：字節跳動發表 Astra 雙模型架構，解決室內定位與路徑規劃難題

隨著機器人在工業製造與日常生活的應用日益普及，傳統導航系統在處理複雜室內環境時，常因規則過於僵化而面臨挑戰。為了讓機器人能精確回答「我在哪裡」、「我要去哪」以及「如何抵達」等核心問題，字節跳動（ByteDance）發表了名為 Astra 的創新雙模型導航架構，旨在推動通用型移動機器人的發展。

雙模型架構：分工處理全局與局部任務

Astra 的設計遵循「系統 1/系統 2（System 1/System 2）」範式，將導航任務拆分為兩個子模型：

Astra-Global（全局大腦）：負責低頻率的目標定位與自我定位。
Astra-Local（局部助手）：負責高頻率的局部路徑規劃與里程計估算。

這種架構解決了過去導航系統中，多個小型規則模組整合困難的痛點，使機器人能更靈活地適應環境。

Astra-Global：多模態定位核心

Astra-Global 扮演著「大腦」的角色，它是一個多模態大型語言模型（MLLM），能同時處理視覺與語言輸入。該模型透過離線構建的「混合拓撲語義圖（Hybrid Topological-Semantic Graph）」作為上下文基礎，實現從粗略到精細的兩階段定位。

實驗顯示，結合群體相對策略優化（GRPO）訓練後的 Astra-Global，在未知居家環境下的定位準確率高達 99.9%，顯著優於僅使用監督式微調（SFT）的方法。

Astra-Local：即時路徑規劃與感知

Astra-Local 則專注於高頻任務，其核心組件包括 4D 時空編碼器、規劃頭（Planning Head）與里程計頭（Odometry Head）。

該模型利用 4D 時空編碼器取代傳統的感知與預測模組，透過 Vision Transformer（ViT）將全景影像轉換為 3D 體素特徵，並預測未來環境狀態。在路徑規劃上，Astra-Local 採用基於 Transformer 的流匹配技術生成可行軌跡，並引入遮罩歐幾里得符號距離場（Masked ESDF）損失函數，大幅降低了機器人的碰撞率。

此外，里程計頭透過融合 IMU 與輪速計等感測器數據，顯著提升了旋轉精確度並減少了軌跡誤差。透過在倉庫、辦公室與居家等多樣化室內環境的廣泛實驗，Astra 展現了在處理文字與圖像導航指令上的卓越能力，為通用型移動機器人提供了更具彈性的導航解決方案。

機器人導航新突破：字節跳動發表 Astra 雙模型架構，解決室內定位與路徑規劃難題

編輯核心觀點

雙模型架構：分工處理全局與局部任務

Astra-Global：多模態定位核心

Astra-Local：即時路徑規劃與感知

資料來源

相關文章

法國 AI 獨角獸 Mistral AI 擬募資 30 億歐元，估值上看 200 億歐元挑戰 OpenAI

Apple AI 戰略大轉彎：第三代基礎模型 AFM 3 聯手 Google 雲端，打造隱私與效能平衡術

掃地機器人霸主跨界！Roborock 推首款戶外割草機 RockNeo Q110H

Google Gemini-SQL2 突破資料庫查詢瓶頸，BIRD 榜單精準度衝上 80.04%