返回首頁

告別傳統導航限制:字節跳動發表 Astra 雙模型架構,賦予機器人「大腦」級空間感知

編輯核心觀點

  • 字節跳動開發 Astra 導航架構,透過 Astra-Global 與 Astra-Local 雙模型分工解決機器人定位與路徑規劃難題。
  • Astra-Global 結合多模態大型語言模型與語意地圖,在未見過的居家環境中達成 99.9% 的定位準確率。
  • Astra-Local 引入 4D 時空編碼器與 Transformer 模型,大幅提升機器人在複雜室內環境的避障效率與運動估測精度。
告別傳統導航限制:字節跳動發表 Astra 雙模型架構,賦予機器人「大腦」級空間感知

機器人導航的瓶頸:從規則導向到模型驅動

隨著機器人在工業製造與日常生活中的應用日益普及,如何讓機器人精準回答「我在哪裡?」、「我要去哪?」以及「該如何前往?」成為技術核心挑戰。傳統導航系統多依賴規則導向(Rule-based)的模組,將目標定位、地圖定位與路徑規劃拆解處理,但在面對複雜多變的室內環境時,往往受限於人造標記(如 QR Code)的依賴,難以應對重複性高的場域。

字節跳動(ByteDance)近期發表的 Astra 導航架構,旨在透過「層次化多模態學習」實現通用型移動機器人。該架構遵循 System 1/System 2 範式,將任務拆分為低頻的全局任務與高頻的局部任務。

Astra-Global:具備語意理解的「大腦」

Astra-Global 作為架構的核心,負責處理自定位與目標定位。它本質上是一個多模態大型語言模型(MLLM),能同時解析視覺與語言輸入。研究團隊透過離線繪製「混合拓撲語意圖(Hybrid Topological-Semantic Graph)」作為地圖基礎,將關鍵影格、相對位姿與語意地標整合其中。

在定位過程中,Astra-Global 採用「由粗到細」的兩階段策略:先透過視覺與語言提示篩選候選區域,再精確比對地圖節點以輸出 6 自由度(6-DoF)位姿。在訓練方法上,團隊採用 Qwen2.5-VL 作為基礎模型,結合監督式微調(SFT)與群體相對策略優化(GRPO)。

實驗數據顯示,GRPO 訓練顯著提升了模型的零樣本泛化能力,使其在未見過的居家環境中,定位準確率高達 99.9%,表現優於僅使用 SFT 的方法。

Astra-Local:高頻路徑規劃的「助手」

負責高頻任務的 Astra-Local 則包含 4D 時空編碼器、規劃頭(Planning Head)與里程計頭(Odometry Head)。該模組捨棄了傳統的感知與預測模組,改用 4D 時空編碼器處理全景影像,並透過 Transformer 架構進行路徑生成與感測器融合。

為了確保安全性,規劃頭引入了「遮罩歐幾里得符號距離場(Masked ESDF Loss)」損失函數,能有效計算 3D 佔用圖並結合地面真實路徑遮罩,顯著降低機器人的碰撞率。此外,里程計頭透過融合 IMU、輪式編碼器等多感測器數據,大幅減少了機器人運動過程中的軌跡誤差。

為什麼重要

Astra 的出現標誌著機器人導航從「硬編碼規則」轉向「端到端多模態模型」的技術轉折。透過將大型語言模型的語意理解能力與 4D 時空感知結合,機器人不再僅是依賴預設路徑的自動裝置,而是具備了理解自然語言指令並在複雜、動態環境中自主導航的通用能力,這對於倉儲自動化與居家服務機器人的落地應用具有指標性意義。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章