告別傳統導航限制：字節跳動發表 Astra 雙模型架構，賦予機器人「大腦」級空間感知

機器人導航的瓶頸：從規則導向到模型驅動

隨著機器人在工業製造與日常生活中的應用日益普及，如何讓機器人精準回答「我在哪裡？」、「我要去哪？」以及「該如何前往？」成為技術核心挑戰。傳統導航系統多依賴規則導向（Rule-based）的模組，將目標定位、地圖定位與路徑規劃拆解處理，但在面對複雜多變的室內環境時，往往受限於人造標記（如 QR Code）的依賴，難以應對重複性高的場域。

字節跳動（ByteDance）近期發表的 Astra 導航架構，旨在透過「層次化多模態學習」實現通用型移動機器人。該架構遵循 System 1/System 2 範式，將任務拆分為低頻的全局任務與高頻的局部任務。

Astra-Global：具備語意理解的「大腦」

Astra-Global 作為架構的核心，負責處理自定位與目標定位。它本質上是一個多模態大型語言模型（MLLM），能同時解析視覺與語言輸入。研究團隊透過離線繪製「混合拓撲語意圖（Hybrid Topological-Semantic Graph）」作為地圖基礎，將關鍵影格、相對位姿與語意地標整合其中。

在定位過程中，Astra-Global 採用「由粗到細」的兩階段策略：先透過視覺與語言提示篩選候選區域，再精確比對地圖節點以輸出 6 自由度（6-DoF）位姿。在訓練方法上，團隊採用 Qwen2.5-VL 作為基礎模型，結合監督式微調（SFT）與群體相對策略優化（GRPO）。

實驗數據顯示，GRPO 訓練顯著提升了模型的零樣本泛化能力，使其在未見過的居家環境中，定位準確率高達 99.9%，表現優於僅使用 SFT 的方法。

Astra-Local：高頻路徑規劃的「助手」

負責高頻任務的 Astra-Local 則包含 4D 時空編碼器、規劃頭（Planning Head）與里程計頭（Odometry Head）。該模組捨棄了傳統的感知與預測模組，改用 4D 時空編碼器處理全景影像，並透過 Transformer 架構進行路徑生成與感測器融合。

為了確保安全性，規劃頭引入了「遮罩歐幾里得符號距離場（Masked ESDF Loss）」損失函數，能有效計算 3D 佔用圖並結合地面真實路徑遮罩，顯著降低機器人的碰撞率。此外，里程計頭透過融合 IMU、輪式編碼器等多感測器數據，大幅減少了機器人運動過程中的軌跡誤差。

為什麼重要

Astra 的出現標誌著機器人導航從「硬編碼規則」轉向「端到端多模態模型」的技術轉折。透過將大型語言模型的語意理解能力與 4D 時空感知結合，機器人不再僅是依賴預設路徑的自動裝置，而是具備了理解自然語言指令並在複雜、動態環境中自主導航的通用能力，這對於倉儲自動化與居家服務機器人的落地應用具有指標性意義。

告別傳統導航限制：字節跳動發表 Astra 雙模型架構，賦予機器人「大腦」級空間感知

編輯核心觀點

機器人導航的瓶頸：從規則導向到模型驅動

Astra-Global：具備語意理解的「大腦」

Astra-Local：高頻路徑規劃的「助手」

為什麼重要

資料來源

相關文章

機器人導航新突破：字節跳動發表 Astra 雙模型架構，解決室內定位與路徑規劃難題

法國 AI 獨角獸 Mistral AI 擬募資 30 億歐元，估值上看 200 億歐元挑戰 OpenAI

Meta 啟動公益計畫：免費提供 AI 智慧眼鏡，助美國盲人退伍軍人重拾獨立生活

Perplexity 大升級！Deep Research 導入「程式碼驅動搜尋」，串聯 20 款 AI 模型自動產出報表