返回首頁

機器人學的「大一統」嘗試:Qwen-Robot-Suite 透過三大模型解決跨硬體數據碎片化難題

編輯核心觀點

  • Qwen 團隊推出 Qwen-Robot-Suite,包含針對操作、世界模型與導航的三大基礎模型,旨在解決機器人領域硬體與任務數據不相容的困境。
  • RobotManip 透過統一的狀態與動作對齊框架,成功將操作數據規模擴展至 3.8 萬小時,並在跨機器人平台轉移任務中表現優於現有技術。
  • RobotWorld 利用語言作為通用動作介面,透過 200 億參數的雙流擴散 Transformer,實現跨形態的物理動態預測與環境建模。
機器人學的「大一統」嘗試:Qwen-Robot-Suite 透過三大模型解決跨硬體數據碎片化難題

機器人數據碎片化的解方

機器人技術長期受限於硬體與任務的數據碎片化,不同機器人使用不相容的觀測與動作格式,導致為特定機械手臂訓練的策略難以轉移至其他平台。Qwen 團隊近日發布 Qwen-Robot-Suite,由三個獨立的基礎模型組成,分別針對機器人操作、世界建模與導航三大核心問題,試圖透過統一框架解決數據孤島問題。

Qwen-RobotManip:操作數據的規模化關鍵

Qwen-RobotManip 是一個基於 Qwen3.5-4B 的視覺-語言-動作(VLA)模型。為了克服不同機器人數據格式不一的挑戰,該模型引入了統一對齊框架,包含三個關鍵機制:

  • 標準化狀態-動作表示:使用 80 維向量並搭配二進位遮罩,將不同機器人的關節位置、末端執行器姿勢與夾爪狀態整合。
  • 相機座標系增量參數化:將末端執行器動作轉化為相機座標系下的增量,使視覺相似的動作在數值上更為接近。
  • 情境內策略適應:透過讀取近期執行紀錄作為隱式識別,無需更新參數即可在部署時調整行為。

在數據引擎方面,該模型整合了約 38,100 小時的數據,其中大部分來自人類手部示範轉化為機器人軌跡的合成數據。測試結果顯示,RobotManip 在跨形態轉移任務中達到 23.9% 的成功率,是先前技術 π0.5 的 3.2 倍,並在 RoboChallenge Table30-v1 通用組中排名第一。

Qwen-RobotWorld:以語言作為通用介面

Qwen-RobotWorld 是一個以語言為條件的影片世界模型,旨在學習環境動態。它將狀態表示為影片幀,並將語言作為統一的動作介面,這使得模型能跨越不同的機器人形態(如機械手臂或人形機器人)進行操作。

該模型採用 20B 參數的 60 層雙流多模態擴散 Transformer(MMDiT),透過理解流與生成流的聯合注意力機制,確保生成的影片符合物理規律。

訓練數據集 Embodied World Knowledge (EWK) 包含約 860 萬對影片-文字數據,涵蓋超過 2 億個觀測幀。在 EWMBench 基準測試中,RobotWorld 在運動保真度上領先對手 33%,並在物理一致性(如牛頓定律、質量守恆與重力)測試中獲得滿分評價。

Qwen-RobotNav:導航任務的參數化控制

Qwen-RobotNav 則是基於 Qwen3-VL 構建的導航模型,提供 2B、4B 及 8B 三種尺寸。該模型將多任務導航重新定義為觀測情境建模,透過參數化介面為外部控制提供軌跡預測,旨在應對指令跟隨、物體搜尋與目標追蹤等多樣化導航需求。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章