字節跳動推出「Astra」雙模型架構：機器人導航不再迷航，從倉庫到居家都能精準定位

從工業製造到日常生活，機器人的身影越來越常見，這也凸顯了對先進導航系統的迫切需求。然而，當代機器人導航系統在多元且複雜的室內環境中，往往面臨嚴峻挑戰，暴露出傳統方法的局限性。為了解決「我在哪？」「我要去哪？」「我怎麼去？」這些根本問題，字節跳動（ByteDance）開發了創新的雙模型架構 Astra，旨在克服傳統導航瓶頸，讓通用型移動機器人不再迷航。

傳統導航系統通常由多個、較小的、且常基於規則的模組組成，以處理目標定位、自我定位和路徑規劃等核心挑戰。其中，目標定位涉及理解自然語言或圖像線索，在地圖上精確標定目的地；自我定位則要求機器人確定其在地圖中的精確位置，這在倉庫等重複性環境中尤其困難，傳統方法常需依賴人工地標（如 QR Code）。至於路徑規劃，又可細分為用於粗略路線生成的全局規劃，以及用於即時避障和到達中間點的局部規劃。

儘管基礎模型（Foundation Models）已展現出整合小型模型以應對更廣泛任務的潛力，但對於實現全面導航所需的最佳模型數量及其有效整合方式，仍是個懸而未決的問題。

Astra 的雙模型典範：全局與局部協同運作

字節跳動在論文《Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning》中詳細介紹了 Astra，它借鑒了人類「系統一／系統二」（System 1/System 2）的思維典範，設計了兩個主要子模型：Astra-Global 和 Astra-Local。Astra-Global 負責處理低頻率任務，如目標和自我定位；而 Astra-Local 則管理高頻率任務，例如局部路徑規劃和里程估計。這種架構有望徹底改變機器人在複雜室內空間中的導航方式。

Astra-Global：智慧大腦負責全局定位

Astra-Global 是 Astra 架構的智慧核心，負責關鍵的低頻率任務：自我定位和目標定位。它作為一個多模態大型語言模型（Multimodal Large Language Model, MLLM），擅長處理視覺和語言輸入，以在地圖中實現精確的全局定位。其優勢在於利用混合拓撲語義圖（hybrid topological-semantic graph）作為上下文輸入，使模型能夠根據查詢圖像或文字提示準確定位。

這個強大定位系統的建構始於離線製圖。研究團隊開發了一種離線方法來建立混合拓撲語義圖 G=(V,E,L)：

V（節點）：透過對輸入影片進行時間降採樣，並透過 SfM（Structure from Motion）估計的 6 自由度（6-DoF）相機姿態獲得關鍵幀，作為編碼相機姿態和地標參考的節點。
E（邊緣）：無向邊緣根據相對節點姿態建立連接，這對於全局路徑規劃至關重要。
L（地標）：Astra-Global 從每個節點的視覺數據中提取語義地標資訊，豐富地圖的語義理解。這些地標儲存語義屬性，並透過共視關係連接到多個節點。

在實際定位中，Astra-Global 的自我定位和目標定位能力，利用從粗到精的兩階段視覺語言定位過程。粗略階段分析輸入圖像和定位提示，檢測地標，與預先建立的地標地圖建立對應關係，並根據視覺一致性篩選候選者。精細階段則使用查詢圖像和粗略輸出，從離線地圖中採樣參考地圖節點，比較其視覺和位置資訊，直接輸出預測姿態。

對於基於語言的目標定位，模型會解釋自然語言指令，利用地圖中地標的功能描述識別相關地標，然後利用地標到節點的關聯機制定位相關節點，檢索目標圖像和 6 自由度姿態。

為賦予 Astra-Global 強大的定位能力，團隊採用了嚴謹的訓練方法。他們以 Qwen2.5-VL 作為骨幹，結合了監督式微調（Supervised Fine-Tuning, SFT）和群體相對策略優化（Group Relative Policy Optimization, GRPO）。SFT 涉及用於各種任務的多樣化數據集，包括粗略和精細定位、共視檢測和運動趨勢估計。在 GRPO 階段，使用基於規則的獎勵函數（包括格式、地標提取、地圖匹配和額外地標獎勵）進行視覺語言定位訓練。實驗結果顯示，GRPO 顯著提高了 Astra-Global 的零樣本泛化能力，在未見過的家庭環境中實現了 99.9% 的定位準確度，超越了僅使用 SFT 的方法。

Astra-Local：靈敏助手處理即時規劃

Astra-Local 作為 Astra 高頻率任務的智慧助手，是一個多任務網路，能夠高效生成局部路徑並從感測器數據中準確估計里程。其架構包含三個核心組件：一個 4D 時空編碼器、一個規劃頭和一個里程計頭。

4D 時空編碼器：它取代了傳統的移動堆疊感知和預測模組。首先，一個 3D 空間編碼器透過 Vision Transformer (ViT) 和 Lift-Splat-Shoot 處理 N 個全向圖像，將 2D 圖像特徵轉換為 3D 體素特徵。這個 3D 編碼器透過 3D 體積可微分神經渲染進行自監督學習訓練。然後，4D 時空編碼器在此基礎上，將過去的體素特徵和未來的時間戳作為輸入，透過 ResNet 和 DiT 模組預測未來的體素特徵，為規劃和里程計提供當前和未來的環境表示。
規劃頭：基於預訓練的 4D 特徵、機器人速度和任務資訊，使用基於 Transformer 的流匹配生成可執行軌跡。為防止碰撞，規劃頭整合了遮罩式歐幾里德有符號距離場（masked ESDF loss）。這種損失計算 3D 佔用地圖的 ESDF，並應用 2D 真實軌跡遮罩，顯著降低了碰撞率。實驗證明，與其他方法相比，它在分佈外（OOD）數據集上的碰撞率和總體得分方面表現優異。
里程計頭：使用當前和過去的 4D 特徵以及額外的感測器數據（例如 IMU、車輪數據）預測機器人的相對姿態。它訓練一個 Transformer 模型來融合來自不同感測器的資訊。每個感測器模態都由一個特定的分詞器處理，與模態嵌入和時間位置嵌入結合，饋入 Transformer 編碼器，最後使用 CLS 標記預測相對姿態。實驗表明，里程計頭在多感測器融合和姿態估計方面表現出色，顯著提高了旋轉精度並減少了整體軌跡誤差。

實驗驗證與卓越表現

研究團隊在多樣化的室內環境（倉庫、辦公室、家庭）中進行了廣泛實驗，以全面評估 Astra 的性能。

Astra-Global 的多模態定位能力透過各種實驗得到驗證，展示了在處理文字和圖像定位查詢方面的卓越性能。對於目標定位，它能根據文字指令（例如「找到休息區」）準確識別匹配的圖像和姿態。與傳統的視覺位置識別（Visual Place Recognition, VPR）方法相比，Astra-Global 在以下方面展現出顯著優勢：