返回首頁

字節跳動Astra雙模型架構突破機器人導航瓶頸:從「我在哪」到「如何去」的智慧進化

編輯核心觀點

  • 傳統機器人導航系統在複雜室內環境面臨瓶頸,字節跳動推出Astra雙模型架構,旨在實現通用型移動機器人的自主導航。
  • Astra-Global作為智慧核心,運用多模態大語言模型處理低頻定位任務,透過混合拓撲語義圖實現精準自我與目標定位。
  • Astra-Local則負責高頻路徑規劃與里程估計,利用4D時空編碼器與多感測器融合技術,確保機器人即時避障與精確移動。
字節跳動Astra雙模型架構突破機器人導航瓶頸:從「我在哪」到「如何去」的智慧進化

隨著機器人技術日益融入工業製造與日常生活,對先進導航系統的需求也隨之增長。然而,現有的機器人導航系統在多樣且複雜的室內環境中,往往暴露出傳統方法的局限性。當機器人面對「我在哪裡?」「我要去哪裡?」「我該怎麼去?」這些基本問題時,傳統方法難以有效應對。為了解決這些挑戰,字節跳動(ByteDance)開發了一種創新的雙模型架構——Astra,旨在克服傳統導航瓶頸,推動通用型移動機器人的發展。

傳統導航系統的挑戰與局限

傳統的機器人導航系統通常由多個、較小的、且常基於規則的模組組成,以處理目標定位、自我定位和路徑規劃等核心任務。目標定位涉及理解自然語言或圖像提示,在地圖上精確標定目的地;自我定位則要求機器人確定其在地圖中的精確位置,這在倉庫等重複性環境中尤其困難,傳統方法往往依賴人工地標(如QR碼)。而路徑規劃又進一步分為生成粗略路線的「全局規劃」,以及用於即時避障和到達中間點的「局部規劃」。

儘管基礎模型(foundation models)在整合小型模型以處理更廣泛任務方面展現潛力,但對於全面導航而言,最佳模型數量及其有效整合方式,仍是未解之謎。

Astra:階層式多模態學習的雙模型架構

字節跳動在論文《Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning》(網站:https://astra-mobility.github.io/)中詳細闡述了Astra如何解決這些限制。Astra遵循「系統1/系統2」(System 1/System 2)的認知範式,包含兩個主要子模型:Astra-GlobalAstra-Local。Astra-Global負責處理目標定位和自我定位等低頻任務,而Astra-Local則管理局部路徑規劃和里程估計等高頻任務。這種架構有望徹底改變機器人在複雜室內空間的導航方式。

Astra-Global:智慧大腦,精準定位全球座標

Astra-Global是Astra架構的智慧核心,負責關鍵的低頻任務:自我定位和目標定位。它作為一個多模態大型語言模型(MLLM)運作,擅長處理視覺和語言輸入,以在地圖中實現精確的全局定位。其優勢在於利用混合拓撲語義圖作為上下文輸入,使模型能夠根據查詢圖像或文字提示準確定位。

這個強大的定位系統始於離線建圖。研究團隊開發了一種離線方法來構建一個混合拓撲語義圖 G=(V,E,L):

V(節點):透過輸入影片的時間降採樣和SfM估計的六自由度(6-DoF)相機姿態獲得的關鍵幀,作為編碼相機姿態和地標參考的節點。

E(邊緣):無向邊緣根據相對節點姿態建立連接,這對於全局路徑規劃至關重要。

L(地標):Astra-Global從每個節點的視覺數據中提取語義地標資訊,豐富地圖的語義理解。這些地標儲存語義屬性,並透過共視關係連接到多個節點。

在實際定位中,Astra-Global的自我定位和目標定位能力利用粗到精的兩階段視覺語言定位過程。粗略階段分析輸入圖像和定位提示,檢測地標,與預建地標地圖建立對應關係,並根據視覺一致性篩選候選對象。精細階段則使用查詢圖像和粗略輸出,從離線地圖中採樣參考地圖節點,比較其視覺和位置資訊,直接輸出預測姿態。

對於基於語言的目標定位,模型會解釋自然語言指令,利用地圖中地標的功能描述來識別相關地標,然後利用地標到節點的關聯機制來定位相關節點,檢索目標圖像和六自由度姿態。

為賦予Astra-Global強大的定位能力,團隊採用了嚴謹的訓練方法。他們以Qwen2.5-VL作為骨幹,結合了監督式微調(SFT)群體相對策略優化(GRPO)。SFT涉及用於粗略和精細定位、共視檢測和運動趨勢估計等各種任務的多樣化數據集。在GRPO階段,使用基於規則的獎勵函數(包括格式、地標提取、地圖匹配和額外地標獎勵)進行視覺語言定位訓練。實驗證明,GRPO顯著提升了Astra-Global的零樣本泛化能力,在未見過的家庭環境中實現了99.9%的定位準確度,超越了僅使用SFT的方法。

Astra-Local:高頻協作,實現即時路徑規劃與里程估計

Astra-Local作為Astra高頻任務的智慧助手,是一個多任務網路,能夠高效生成局部路徑並從感測器數據中準確估計里程。其架構包含三個核心組件:4D時空編碼器、規劃頭(planning head)和里程頭(odometry head)

4D時空編碼器取代了傳統的移動堆疊感知和預測模組。它首先透過一個3D空間編碼器處理N個全向圖像,該編碼器利用視覺轉換器(ViT)和Lift-Splat-Shoot將2D圖像特徵轉換為3D體素特徵。這個3D編碼器透過3D體積可微分神經渲染進行自監督學習訓練。隨後,4D時空編碼器在此基礎上,將過去的體素特徵和未來的時間戳作為輸入,透過殘差網路(ResNet)和擴散轉換器(DiT)模組預測未來的體素特徵,為規劃和里程估計提供當前和未來的環境表示。

規劃頭基於預訓練的4D特徵、機器人速度和任務資訊,使用基於轉換器(Transformer-based)的流匹配生成可執行軌跡。為防止碰撞,規劃頭整合了遮罩式歐幾里得符號距離場(masked ESDF)損失。該損失計算3D佔用地圖的ESDF,並應用2D真實軌跡遮罩,顯著降低了碰撞率。實驗證明,與其他方法相比,它在分佈外(OOD)數據集上的碰撞率和總體分數方面表現優越。

里程頭使用當前和過去的4D特徵以及額外的感測器數據(例如慣性測量單元IMU、車輪數據)預測機器人的相對姿態。它訓練一個轉換器模型來融合來自不同感測器的資訊。每個感測器模態都由特定的分詞器(tokenizer)處理,與模態嵌入和時間位置嵌入結合,輸入到轉換器編碼器,最後使用分類標記(CLS token)預測相對姿態。實驗顯示,里程頭在多感測器融合和姿態估計方面表現出色,顯著提高了旋轉準確性並減少了總體軌跡誤差。

實驗驗證:Astra 的全方位室內導航實力

研究團隊在多樣化的室內環境(倉庫、辦公室、家庭)中進行了廣泛實驗,全面評估Astra的性能。Astra-Global的多模態定位能力透過各種實驗得到驗證,展示了其在處理文字和圖像定位查詢方面的卓越性能。例如,對於目標定位,它能根據文字指令(如「找到休息區」)準確識別匹配的圖像和姿態。與傳統的視覺地點識別(VPR)方法相比,Astra-Global在細節捕捉方面展現顯著優勢,不像VPR僅依賴全局特徵。

Astra的推出,標誌著通用型移動機器人導航技術邁出了重要一步。透過其獨特的雙模型架構,Astra不僅能精準理解複雜的環境語義,還能即時規劃並執行安全的路徑,為機器人更廣泛地應用於多變的現實世界奠定了堅實基礎。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章