機器人學的「大一統」嘗試：Qwen-Robot-Suite 透過三大模型解決跨硬體數據碎片化難題

機器人數據碎片化的解方

機器人技術長期受限於硬體與任務的數據碎片化，不同機器人使用不相容的觀測與動作格式，導致為特定機械手臂訓練的策略難以轉移至其他平台。Qwen 團隊近日發布 Qwen-Robot-Suite，由三個獨立的基礎模型組成，分別針對機器人操作、世界建模與導航三大核心問題，試圖透過統一框架解決數據孤島問題。

Qwen-RobotManip：操作數據的規模化關鍵

Qwen-RobotManip 是一個基於 Qwen3.5-4B 的視覺-語言-動作（VLA）模型。為了克服不同機器人數據格式不一的挑戰，該模型引入了統一對齊框架，包含三個關鍵機制：

標準化狀態-動作表示：使用 80 維向量並搭配二進位遮罩，將不同機器人的關節位置、末端執行器姿勢與夾爪狀態整合。
相機座標系增量參數化：將末端執行器動作轉化為相機座標系下的增量，使視覺相似的動作在數值上更為接近。
情境內策略適應：透過讀取近期執行紀錄作為隱式識別，無需更新參數即可在部署時調整行為。

在數據引擎方面，該模型整合了約 38,100 小時的數據，其中大部分來自人類手部示範轉化為機器人軌跡的合成數據。測試結果顯示，RobotManip 在跨形態轉移任務中達到 23.9% 的成功率，是先前技術 π0.5 的 3.2 倍，並在 RoboChallenge Table30-v1 通用組中排名第一。