告別傳統導航限制：字節跳動發表 Astra 雙模型架構，賦予機器人「大腦」級空間感知

隨著機器人應用場景從工業製造延伸至日常生活，傳統依賴規則（Rule-based）的導航系統在面對複雜室內環境時，常因定位不精確或路徑規劃僵化而面臨瓶頸。字節跳動（ByteDance）近日發表了名為 Astra 的創新雙模型架構，旨在解決機器人「我在哪？」、「我要去哪？」以及「如何到達？」這三大核心導航難題。

雙模型架構：分工處理全局與局部任務

Astra 的設計遵循「系統 1/系統 2」範式，將導航任務拆解為兩個子模型：

Astra-Global：負責低頻率任務，包括目標定位與自我定位。
Astra-Local：負責高頻率任務，如即時路徑規劃與里程計估算。

這種架構讓機器人能同時具備宏觀的空間理解能力與微觀的即時反應速度。

Astra-Global：具備視覺與語言理解的智能大腦

Astra-Global 採用多模態大型語言模型（MLLM），以 Qwen2.5-VL 為基礎架構。它透過「混合拓撲語義圖」來理解環境，並執行兩階段的定位流程：先進行粗略的視覺地標匹配，再進行精細的位姿預測。研究團隊利用監督式微調（SFT）結合群體相對策略優化（GRPO）進行訓練，實驗數據顯示，該模型在未見過的居家環境中，定位準確率高達 99.9%。

Astra-Local：精準的即時路徑規劃助手

Astra-Local 則專注於高頻率的感知與決策。其核心組件包括：

4D 時空編碼器：透過 Vision Transformer（ViT）處理全景影像，並將 2D 特徵轉換為 3D 體素，進而預測未來的環境狀態。
規劃頭（Planning Head）：利用基於 Transformer 的流匹配（Flow Matching）技術生成路徑，並引入遮罩式歐幾里得符號距離場（Masked ESDF）損失函數，顯著降低了機器人的碰撞率。
里程計頭（Odometry Head）：融合 IMU 與輪式數據等多感測器資訊，透過 Transformer 模型進行多模態融合，大幅減少了軌跡誤差。

透過在倉庫、辦公室與居家等多樣化環境的實驗，Astra 架構證明了其在處理複雜導航任務上的優越性，為通用型移動機器人的發展提供了新的技術路徑。

告別傳統導航限制：字節跳動發表 Astra 雙模型架構，賦予機器人「大腦」級空間感知

編輯核心觀點

雙模型架構：分工處理全局與局部任務

Astra-Global：具備視覺與語言理解的智能大腦

Astra-Local：精準的即時路徑規劃助手

資料來源

相關文章

告別傳統導航限制！字節跳動發表 Astra 雙模型架構，讓機器人具備「空間認知」能力

挑戰 Transformer 霸權：AI 新創 Subquadratic 宣稱破解大型語言模型運算瓶頸

NVIDIA 發表 SpatialClaw：讓 AI 像工程師一樣「寫程式」解決 3D 空間推理難題

AI 發展雙軌並進：Meta 腦機介面解碼突破與 Anthropic Claude 5 效能升級