字節跳動推出「Astra」雙模型架構:機器人導航不再迷航,從倉庫到居家都能精準定位
編輯核心觀點
- ✦隨著機器人應用日益普及,傳統導航系統在複雜室內環境中面臨挑戰,難以同時解決「我在哪」、「要去哪」與「怎麼去」三大核心問題。
- ✦字節跳動(ByteDance)借鑑人類「系統一/系統二」思維模式,開發出創新的「Astra」雙模型架構,旨在賦予通用型移動機器人更強大的自主導航能力。
- ✦Astra 透過 Astra-Global 負責全局定位與目標識別,並由 Astra-Local 處理即時路徑規劃與里程估計,在多樣化室內環境中展現卓越的定位精度與避障能力。

從工業製造到日常生活,機器人的身影越來越常見,這也凸顯了對先進導航系統的迫切需求。然而,當代機器人導航系統在多元且複雜的室內環境中,往往面臨嚴峻挑戰,暴露出傳統方法的局限性。為了解決「我在哪?」「我要去哪?」「我怎麼去?」這些根本問題,字節跳動(ByteDance)開發了創新的雙模型架構 Astra,旨在克服傳統導航瓶頸,讓通用型移動機器人不再迷航。
傳統導航系統通常由多個、較小的、且常基於規則的模組組成,以處理目標定位、自我定位和路徑規劃等核心挑戰。其中,目標定位涉及理解自然語言或圖像線索,在地圖上精確標定目的地;自我定位則要求機器人確定其在地圖中的精確位置,這在倉庫等重複性環境中尤其困難,傳統方法常需依賴人工地標(如 QR Code)。至於路徑規劃,又可細分為用於粗略路線生成的全局規劃,以及用於即時避障和到達中間點的局部規劃。
儘管基礎模型(Foundation Models)已展現出整合小型模型以應對更廣泛任務的潛力,但對於實現全面導航所需的最佳模型數量及其有效整合方式,仍是個懸而未決的問題。
Astra 的雙模型典範:全局與局部協同運作
字節跳動在論文《Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning》中詳細介紹了 Astra,它借鑒了人類「系統一/系統二」(System 1/System 2)的思維典範,設計了兩個主要子模型:Astra-Global 和 Astra-Local。Astra-Global 負責處理低頻率任務,如目標和自我定位;而 Astra-Local 則管理高頻率任務,例如局部路徑規劃和里程估計。這種架構有望徹底改變機器人在複雜室內空間中的導航方式。
Astra-Global:智慧大腦負責全局定位
Astra-Global 是 Astra 架構的智慧核心,負責關鍵的低頻率任務:自我定位和目標定位。它作為一個多模態大型語言模型(Multimodal Large Language Model, MLLM),擅長處理視覺和語言輸入,以在地圖中實現精確的全局定位。其優勢在於利用混合拓撲語義圖(hybrid topological-semantic graph)作為上下文輸入,使模型能夠根據查詢圖像或文字提示準確定位。
這個強大定位系統的建構始於離線製圖。研究團隊開發了一種離線方法來建立混合拓撲語義圖 G=(V,E,L):
- V(節點):透過對輸入影片進行時間降採樣,並透過 SfM(Structure from Motion)估計的 6 自由度(6-DoF)相機姿態獲得關鍵幀,作為編碼相機姿態和地標參考的節點。
- E(邊緣):無向邊緣根據相對節點姿態建立連接,這對於全局路徑規劃至關重要。
- L(地標):Astra-Global 從每個節點的視覺數據中提取語義地標資訊,豐富地圖的語義理解。這些地標儲存語義屬性,並透過共視關係連接到多個節點。
在實際定位中,Astra-Global 的自我定位和目標定位能力,利用從粗到精的兩階段視覺語言定位過程。粗略階段分析輸入圖像和定位提示,檢測地標,與預先建立的地標地圖建立對應關係,並根據視覺一致性篩選候選者。精細階段則使用查詢圖像和粗略輸出,從離線地圖中採樣參考地圖節點,比較其視覺和位置資訊,直接輸出預測姿態。
對於基於語言的目標定位,模型會解釋自然語言指令,利用地圖中地標的功能描述識別相關地標,然後利用地標到節點的關聯機制定位相關節點,檢索目標圖像和 6 自由度姿態。
為賦予 Astra-Global 強大的定位能力,團隊採用了嚴謹的訓練方法。他們以 Qwen2.5-VL 作為骨幹,結合了監督式微調(Supervised Fine-Tuning, SFT)和群體相對策略優化(Group Relative Policy Optimization, GRPO)。SFT 涉及用於各種任務的多樣化數據集,包括粗略和精細定位、共視檢測和運動趨勢估計。在 GRPO 階段,使用基於規則的獎勵函數(包括格式、地標提取、地圖匹配和額外地標獎勵)進行視覺語言定位訓練。實驗結果顯示,GRPO 顯著提高了 Astra-Global 的零樣本泛化能力,在未見過的家庭環境中實現了 99.9% 的定位準確度,超越了僅使用 SFT 的方法。
Astra-Local:靈敏助手處理即時規劃
Astra-Local 作為 Astra 高頻率任務的智慧助手,是一個多任務網路,能夠高效生成局部路徑並從感測器數據中準確估計里程。其架構包含三個核心組件:一個 4D 時空編碼器、一個規劃頭和一個里程計頭。
- 4D 時空編碼器:它取代了傳統的移動堆疊感知和預測模組。首先,一個 3D 空間編碼器透過 Vision Transformer (ViT) 和 Lift-Splat-Shoot 處理 N 個全向圖像,將 2D 圖像特徵轉換為 3D 體素特徵。這個 3D 編碼器透過 3D 體積可微分神經渲染進行自監督學習訓練。然後,4D 時空編碼器在此基礎上,將過去的體素特徵和未來的時間戳作為輸入,透過 ResNet 和 DiT 模組預測未來的體素特徵,為規劃和里程計提供當前和未來的環境表示。
- 規劃頭:基於預訓練的 4D 特徵、機器人速度和任務資訊,使用基於 Transformer 的流匹配生成可執行軌跡。為防止碰撞,規劃頭整合了遮罩式歐幾里德有符號距離場(masked ESDF loss)。這種損失計算 3D 佔用地圖的 ESDF,並應用 2D 真實軌跡遮罩,顯著降低了碰撞率。實驗證明,與其他方法相比,它在分佈外(OOD)數據集上的碰撞率和總體得分方面表現優異。
- 里程計頭:使用當前和過去的 4D 特徵以及額外的感測器數據(例如 IMU、車輪數據)預測機器人的相對姿態。它訓練一個 Transformer 模型來融合來自不同感測器的資訊。每個感測器模態都由一個特定的分詞器處理,與模態嵌入和時間位置嵌入結合,饋入 Transformer 編碼器,最後使用 CLS 標記預測相對姿態。實驗表明,里程計頭在多感測器融合和姿態估計方面表現出色,顯著提高了旋轉精度並減少了整體軌跡誤差。
實驗驗證與卓越表現
研究團隊在多樣化的室內環境(倉庫、辦公室、家庭)中進行了廣泛實驗,以全面評估 Astra 的性能。
Astra-Global 的多模態定位能力透過各種實驗得到驗證,展示了在處理文字和圖像定位查詢方面的卓越性能。對於目標定位,它能根據文字指令(例如「找到休息區」)準確識別匹配的圖像和姿態。與傳統的視覺位置識別(Visual Place Recognition, VPR)方法相比,Astra-Global 在以下方面展現出顯著優勢:
- 細節捕捉:VPR 依賴全局特徵,而 Astra-Global 則能更精確地捕捉環境細節。
Astra 的推出,為通用型移動機器人的自主導航帶來了革命性的進展。透過其獨特的雙模型架構,機器人將能更智慧地理解複雜環境、精準定位並安全規劃路徑,從而加速機器人在各行各業的應用與普及。



