告別傳統導航限制！字節跳動發表 Astra 雙模型架構，讓機器人具備「空間認知」能力

隨著機器人應用從工業製造跨足至日常生活，如何在複雜的室內環境中精準導航，成為機器人技術的一大挑戰。傳統導航系統多依賴規則式模組，在處理目標定位、自我定位與路徑規劃時，常受限於環境變化或需依賴 QR Code 等人工標記。字節跳動（ByteDance）近日發表了名為 Astra 的雙模型架構，旨在透過「階層式多模態學習」實現通用型移動機器人。

Astra-Global：具備語意理解的「大腦」

Astra 架構遵循系統 1 與系統 2 的設計範式，其中 Astra-Global 負責低頻率的關鍵任務，包括自我定位與目標定位。該模型本質上是一個多模態大型語言模型（MLLM），能同時處理視覺與語言輸入。為了建立導航基礎，研究團隊建構了一套「混合拓撲語意圖（Hybrid Topological-Semantic Graph）」，將關鍵幀作為節點，並透過語意地標（Landmarks）豐富地圖資訊。

在定位過程中，Astra-Global 採取「由粗到細」的兩階段策略：先進行視覺與語言的初步比對，再透過參考地圖節點進行精確位姿預測。為了提升效能，團隊以 Qwen2.5-VL 為骨幹，結合監督式微調（SFT）與群組相對策略優化（GRPO）。實驗數據顯示，GRPO 的訓練方式顯著提升了模型的零樣本泛化能力，在未見過的居家環境中，定位準確度高達 99.9%。