阿里巴巴「通義千問機器人套件」揭示：打造機器人經濟的作業系統，但家用普及仍需時日

阿里巴巴的通義千問團隊近期推出了一套名為「通義千問機器人套件」（Qwen-Robot Suite）的創新技術，這套件由三大基礎模型組成，被視為建構「具身智慧」（embodied intelligence）的完整堆疊。阿里巴巴的目標是為機器人經濟打造一個統一的軟體作業系統，如同當年Google Android系統之於智慧型手機，為機器人硬體提供核心的「大腦」。

這套件的核心在於解決機器人面臨的複雜物理世界挑戰，而非傳統大型語言模型（LLM）處理的純文字邏輯。阿里巴巴強調，其模型在多項機器人基準測試中表現優異，這得益於數百萬個訓練樣本以及數萬小時的開源機器人數據。

三大核心模型，構築機器人智慧基石

通義千問機器人套件包含三個獨立運作卻又協同合作的模型，分別專注於機器人智慧的不同面向：

通義千問機器人導航模型（Qwen-RobotNav）：專責機器人的移動能力。它能統一處理五種導航任務，包括指令遵循、點目標導航、物體搜尋、目標追蹤以及自動駕駛。這些任務通常需要不同的視覺記憶策略，而大多數模型僅能硬編碼一種。通義千問機器人導航模型則提供參數化的介面，允許在任務執行中動態調整如令牌預算、時間衰減和每攝影機權重等策略。該模型透過1560萬個隨機化參數樣本訓練，在真實世界環境的視覺與語言導航基準VLN-CE RxR上達到76.5%的成功率，並在評估代理追蹤移動目標能力的EVT-Bench上達到90%的追蹤率。
通義千問機器人操作模型（Qwen-RobotManip）：旨在解決機器人操作領域的一大難題——不同機器人對動作的表示方式截然不同。例如，法蘭卡機械臂（Franka arm）透過關節角度運作，而廣泛用於機器人研究的低成本雙臂機器人平台阿羅哈機器人（ALOHA robot）則透過其夾爪的姿態（末端執行器姿態）來表示動作。人形機器人更增加了複雜性，使用全身座標。為彌合這些不相容的動作空間，阿里巴巴綜合了約38100小時的開源機器人數據和人類影片進行訓練，且未依賴專有數據。該模型在RoboChallenge Table30-v1基準測試中位居榜首，超越了先前的方法20%。
通義千問機器人世界模型（Qwen-RobotWorld）：這是最具野心的模型，一個語言條件式影片世界模型，將自然語言視為通用的動作介面。這意味著，無論執行者是機械夾爪、自動駕駛車輛還是移動導航代理，一句「拿起紅杯子並將水倒在花上」的指令都能被理解並執行。其「具身世界知識語料庫」（Embodied World Knowledge corpus）涵蓋860萬個影片-文字對，共計2億幀，內容橫跨操作（590萬個樣本、1300多種技能、20多種形態）、自動駕駛（如Waymo、NVIDIA PhysicalAI-AD、Bench2Drive）、室內導航（VLNVerse），以及14種機械臂的人機轉移。該模型在EWMBench和DreamGen Bench兩項評估世界模型預測和生成真實物理環境的基準測試中名列第一，並在WorldModelBench和PBench上擊敗所有開源模型，同時在物理法則遵循方面（牛頓定律、質量守恆、流體力學、重力）達到完美分數。

阿里巴巴的戰略優勢與技術突破

阿里巴巴在中國是唯一一家橫跨晶片、雲端、模型、服務平台和應用程式的公司。對阿里巴巴而言，機器人技術是其對「具身AI」押注的最具體體現。現有的AI代理主要依賴大型語言模型來驅動決策，而傳統機器人則透過機器學習模型運作，儘管先進，卻缺乏生成式AI的適應性。物理代理面臨的是截然不同且更困難的失敗模式：物理法則，而非提示詞（prompts）的限制。

相較於西方實驗室（如Google DeepMind、Nvidia、Figure、Physical Intelligence）多數專注於導航或操作的單一面向，阿里巴巴的優勢在於其垂直整合能力，從晶片到應用程式，全面掌控整個堆疊。此外，其開源基礎模型策略也與依賴私有機器人數據的競爭對手形成區隔。

釐清誤解：這不是機器人，也不是傳統大型語言模型

值得注意的是，通義千問機器人套件並非實體機器人，而是軟體模型——它們是「大腦」，而非「身體」。這些模型可以在AgileX、Franka、Universal Robots、Unitree等公司的硬體上運行。

儘管這些是為機器人設計的生成式AI模型，但它們與典型的ChatGPT等大型語言模型有本質上的不同。大型語言模型主要預測詞元（tokens），而這些機器人模型必須理解物理、空間關係以及物理動作的後果。一個大型語言模型能告訴你玻璃掉落會碎，但通義千問機器人世界模型能預測它如何碎裂——碎裂模式、流體動力學、二次碰撞等。而通義千問機器人操作模型則能規劃一個完全避免掉落的抓取方式。

現實挑戰：從實驗室到家庭仍有漫漫長路

儘管技術成就斐然，但我們不應期待很快就能擁有家用女傭機器人。從機器人將水果放入籃子的受控演示，到機器人能在家中可靠運作，兩者之間存在巨大的鴻溝。目前許多基準測試，如RoboCasa365、LIBERO-Plus、RoboTwin-Clean2Rand，都屬於模擬環境。真實世界的部署會引入感測器雜訊、致動器漂移以及歷史上所有機器人研究都曾面臨的長尾邊緣案例，阿里巴巴也清楚意識到這一點。

然而，這套件的技術突破是真實存在的。通義千問機器人操作模型以「對齊優先」（alignment-first）的方法解決了跨具身訓練的真正瓶頸；通義千問機器人導航模型的參數化觀察介面，巧妙地解決了情境策略問題；而通義千問機器人世界模型將語言作為通用動作介面的抽象，則是跨領域世界建模的正確方向。

目前，阿里巴巴尚未公布通義千問機器人套件的定價、上市時間表，以及除了試點計畫之外，哪些客戶將能取得使用權限。