告別傳統導航限制!字節跳動發表 Astra 雙模型架構,讓機器人具備「空間認知」能力
編輯核心觀點
- ✦字節跳動開發 Astra 導航架構,透過 Astra-Global 與 Astra-Local 雙模型分工解決機器人室內定位與路徑規劃難題。
- ✦Astra-Global 結合多模態大型語言模型與語意地圖,在陌生居家環境中達到 99.9% 的定位準確度。
- ✦Astra-Local 則運用 4D 時空編碼器與 Transformer 模型,實現即時避障與高精度的里程計估算。

隨著機器人應用從工業製造跨足至日常生活,如何在複雜的室內環境中精準導航,成為機器人技術的一大挑戰。傳統導航系統多依賴規則式模組,在處理目標定位、自我定位與路徑規劃時,常受限於環境變化或需依賴 QR Code 等人工標記。字節跳動(ByteDance)近日發表了名為 Astra 的雙模型架構,旨在透過「階層式多模態學習」實現通用型移動機器人。
Astra-Global:具備語意理解的「大腦」
Astra 架構遵循系統 1 與系統 2 的設計範式,其中 Astra-Global 負責低頻率的關鍵任務,包括自我定位與目標定位。該模型本質上是一個多模態大型語言模型(MLLM),能同時處理視覺與語言輸入。為了建立導航基礎,研究團隊建構了一套「混合拓撲語意圖(Hybrid Topological-Semantic Graph)」,將關鍵幀作為節點,並透過語意地標(Landmarks)豐富地圖資訊。
在定位過程中,Astra-Global 採取「由粗到細」的兩階段策略:先進行視覺與語言的初步比對,再透過參考地圖節點進行精確位姿預測。為了提升效能,團隊以 Qwen2.5-VL 為骨幹,結合監督式微調(SFT)與群組相對策略優化(GRPO)。實驗數據顯示,GRPO 的訓練方式顯著提升了模型的零樣本泛化能力,在未見過的居家環境中,定位準確度高達 99.9%。
Astra-Local:即時反應的「助手」
Astra-Local 則專注於高頻率任務,如路徑規劃與里程計估算。其核心組件包含一個 4D 時空編碼器,該編碼器透過 Vision Transformer(ViT)處理全景影像,並將 2D 特徵轉換為 3D 體素(Voxel)。透過預測未來的體素特徵,機器人能更有效地規畫路徑。
Astra-Local 在規劃頭(Planning Head)中引入了遮罩式歐幾里得符號距離場(Masked ESDF)損失函數,大幅降低了機器人的碰撞率。
此外,Astra-Local 的里程計頭(Odometry Head)透過 Transformer 模型融合 IMU、輪速計等感測器數據,顯著提升了旋轉精確度並減少了軌跡誤差。這套架構在倉庫、辦公室與居家等多種環境的測試中,均展現了優於傳統方法的導航表現。



