字節跳動Astra雙模型架構突破機器人導航瓶頸：從「我在哪」到「如何去」的智慧進化

隨著機器人技術日益融入工業製造與日常生活，對先進導航系統的需求也隨之增長。然而，現有的機器人導航系統在多樣且複雜的室內環境中，往往暴露出傳統方法的局限性。當機器人面對「我在哪裡？」「我要去哪裡？」「我該怎麼去？」這些基本問題時，傳統方法難以有效應對。為了解決這些挑戰，字節跳動（ByteDance）開發了一種創新的雙模型架構——Astra，旨在克服傳統導航瓶頸，推動通用型移動機器人的發展。

傳統導航系統的挑戰與局限

傳統的機器人導航系統通常由多個、較小的、且常基於規則的模組組成，以處理目標定位、自我定位和路徑規劃等核心任務。目標定位涉及理解自然語言或圖像提示，在地圖上精確標定目的地；自我定位則要求機器人確定其在地圖中的精確位置，這在倉庫等重複性環境中尤其困難，傳統方法往往依賴人工地標（如QR碼）。而路徑規劃又進一步分為生成粗略路線的「全局規劃」，以及用於即時避障和到達中間點的「局部規劃」。

儘管基礎模型（foundation models）在整合小型模型以處理更廣泛任務方面展現潛力，但對於全面導航而言，最佳模型數量及其有效整合方式，仍是未解之謎。

Astra：階層式多模態學習的雙模型架構

字節跳動在論文《Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning》（網站：https://astra-mobility.github.io/）中詳細闡述了Astra如何解決這些限制。Astra遵循「系統1/系統2」（System 1/System 2）的認知範式，包含兩個主要子模型：Astra-Global和Astra-Local。Astra-Global負責處理目標定位和自我定位等低頻任務，而Astra-Local則管理局部路徑規劃和里程估計等高頻任務。這種架構有望徹底改變機器人在複雜室內空間的導航方式。

Astra-Global：智慧大腦，精準定位全球座標

Astra-Global是Astra架構的智慧核心，負責關鍵的低頻任務：自我定位和目標定位。它作為一個多模態大型語言模型（MLLM）運作，擅長處理視覺和語言輸入，以在地圖中實現精確的全局定位。其優勢在於利用混合拓撲語義圖作為上下文輸入，使模型能夠根據查詢圖像或文字提示準確定位。

這個強大的定位系統始於離線建圖。研究團隊開發了一種離線方法來構建一個混合拓撲語義圖 G=(V,E,L)：

V（節點）：透過輸入影片的時間降採樣和SfM估計的六自由度（6-DoF）相機姿態獲得的關鍵幀，作為編碼相機姿態和地標參考的節點。

E（邊緣）：無向邊緣根據相對節點姿態建立連接，這對於全局路徑規劃至關重要。

L（地標）：Astra-Global從每個節點的視覺數據中提取語義地標資訊，豐富地圖的語義理解。這些地標儲存語義屬性，並透過共視關係連接到多個節點。

在實際定位中，Astra-Global的自我定位和目標定位能力利用粗到精的兩階段視覺語言定位過程。粗略階段分析輸入圖像和定位提示，檢測地標，與預建地標地圖建立對應關係，並根據視覺一致性篩選候選對象。精細階段則使用查詢圖像和粗略輸出，從離線地圖中採樣參考地圖節點，比較其視覺和位置資訊，直接輸出預測姿態。

對於基於語言的目標定位，模型會解釋自然語言指令，利用地圖中地標的功能描述來識別相關地標，然後利用地標到節點的關聯機制來定位相關節點，檢索目標圖像和六自由度姿態。

為賦予Astra-Global強大的定位能力，團隊採用了嚴謹的訓練方法。他們以Qwen2.5-VL作為骨幹，結合了監督式微調（SFT）和群體相對策略優化（GRPO）。SFT涉及用於粗略和精細定位、共視檢測和運動趨勢估計等各種任務的多樣化數據集。在GRPO階段，使用基於規則的獎勵函數（包括格式、地標提取、地圖匹配和額外地標獎勵）進行視覺語言定位訓練。實驗證明，GRPO顯著提升了Astra-Global的零樣本泛化能力，在未見過的家庭環境中實現了99.9%的定位準確度，超越了僅使用SFT的方法。

Astra-Local：高頻協作，實現即時路徑規劃與里程估計

Astra-Local作為Astra高頻任務的智慧助手，是一個多任務網路，能夠高效生成局部路徑並從感測器數據中準確估計里程。其架構包含三個核心組件：4D時空編碼器、規劃頭（planning head）和里程頭（odometry head）。

4D時空編碼器取代了傳統的移動堆疊感知和預測模組。它首先透過一個3D空間編碼器處理N個全向圖像，該編碼器利用視覺轉換器（ViT）和Lift-Splat-Shoot將2D圖像特徵轉換為3D體素特徵。這個3D編碼器透過3D體積可微分神經渲染進行自監督學習訓練。隨後，4D時空編碼器在此基礎上，將過去的體素特徵和未來的時間戳作為輸入，透過殘差網路（ResNet）和擴散轉換器（DiT）模組預測未來的體素特徵，為規劃和里程估計提供當前和未來的環境表示。

規劃頭基於預訓練的4D特徵、機器人速度和任務資訊，使用基於轉換器（Transformer-based）的流匹配生成可執行軌跡。為防止碰撞，規劃頭整合了遮罩式歐幾里得符號距離場（masked ESDF）損失。該損失計算3D佔用地圖的ESDF，並應用2D真實軌跡遮罩，顯著降低了碰撞率。實驗證明，與其他方法相比，它在分佈外（OOD）數據集上的碰撞率和總體分數方面表現優越。

里程頭使用當前和過去的4D特徵以及額外的感測器數據（例如慣性測量單元IMU、車輪數據）預測機器人的相對姿態。它訓練一個轉換器模型來融合來自不同感測器的資訊。每個感測器模態都由特定的分詞器（tokenizer）處理，與模態嵌入和時間位置嵌入結合，輸入到轉換器編碼器，最後使用分類標記（CLS token）預測相對姿態。實驗顯示，里程頭在多感測器融合和姿態估計方面表現出色，顯著提高了旋轉準確性並減少了總體軌跡誤差。

實驗驗證：Astra 的全方位室內導航實力

研究團隊在多樣化的室內環境（倉庫、辦公室、家庭）中進行了廣泛實驗，全面評估Astra的性能。Astra-Global的多模態定位能力透過各種實驗得到驗證，展示了其在處理文字和圖像定位查詢方面的卓越性能。例如，對於目標定位，它能根據文字指令（如「找到休息區」）準確識別匹配的圖像和姿態。與傳統的視覺地點識別（VPR）方法相比，Astra-Global在細節捕捉方面展現顯著優勢，不像VPR僅依賴全局特徵。

Astra的推出，標誌著通用型移動機器人導航技術邁出了重要一步。透過其獨特的雙模型架構，Astra不僅能精準理解複雜的環境語義，還能即時規劃並執行安全的路徑，為機器人更廣泛地應用於多變的現實世界奠定了堅實基礎。