阿里巴巴「通義千問機器人套件」揭示:打造機器人經濟的作業系統,但家用普及仍需時日
編輯核心觀點
- ✦阿里巴巴發布「通義千問機器人套件」,包含導航、操作與物理世界模擬三大AI模型,旨在成為機器人領域的統一軟體堆疊。
- ✦這套件被譽為機器人界的「Android時刻」,透過垂直整合從晶片到應用,克服傳統機器學習在物理世界中的適應性挑戰。
- ✦儘管技術成就斐然,尤其在跨機器人平台操作與物理預測上表現突出,但距離機器人實際走入家庭仍有數年之遙。

阿里巴巴的通義千問團隊近期推出了一套名為「通義千問機器人套件」(Qwen-Robot Suite)的創新技術,這套件由三大基礎模型組成,被視為建構「具身智慧」(embodied intelligence)的完整堆疊。阿里巴巴的目標是為機器人經濟打造一個統一的軟體作業系統,如同當年Google Android系統之於智慧型手機,為機器人硬體提供核心的「大腦」。
這套件的核心在於解決機器人面臨的複雜物理世界挑戰,而非傳統大型語言模型(LLM)處理的純文字邏輯。阿里巴巴強調,其模型在多項機器人基準測試中表現優異,這得益於數百萬個訓練樣本以及數萬小時的開源機器人數據。
三大核心模型,構築機器人智慧基石
通義千問機器人套件包含三個獨立運作卻又協同合作的模型,分別專注於機器人智慧的不同面向:
- 通義千問機器人導航模型(Qwen-RobotNav):專責機器人的移動能力。它能統一處理五種導航任務,包括指令遵循、點目標導航、物體搜尋、目標追蹤以及自動駕駛。這些任務通常需要不同的視覺記憶策略,而大多數模型僅能硬編碼一種。通義千問機器人導航模型則提供參數化的介面,允許在任務執行中動態調整如令牌預算、時間衰減和每攝影機權重等策略。該模型透過1560萬個隨機化參數樣本訓練,在真實世界環境的視覺與語言導航基準VLN-CE RxR上達到76.5%的成功率,並在評估代理追蹤移動目標能力的EVT-Bench上達到90%的追蹤率。
- 通義千問機器人操作模型(Qwen-RobotManip):旨在解決機器人操作領域的一大難題——不同機器人對動作的表示方式截然不同。例如,法蘭卡機械臂(Franka arm)透過關節角度運作,而廣泛用於機器人研究的低成本雙臂機器人平台阿羅哈機器人(ALOHA robot)則透過其夾爪的姿態(末端執行器姿態)來表示動作。人形機器人更增加了複雜性,使用全身座標。為彌合這些不相容的動作空間,阿里巴巴綜合了約38100小時的開源機器人數據和人類影片進行訓練,且未依賴專有數據。該模型在RoboChallenge Table30-v1基準測試中位居榜首,超越了先前的方法20%。
- 通義千問機器人世界模型(Qwen-RobotWorld):這是最具野心的模型,一個語言條件式影片世界模型,將自然語言視為通用的動作介面。這意味著,無論執行者是機械夾爪、自動駕駛車輛還是移動導航代理,一句「拿起紅杯子並將水倒在花上」的指令都能被理解並執行。其「具身世界知識語料庫」(Embodied World Knowledge corpus)涵蓋860萬個影片-文字對,共計2億幀,內容橫跨操作(590萬個樣本、1300多種技能、20多種形態)、自動駕駛(如Waymo、NVIDIA PhysicalAI-AD、Bench2Drive)、室內導航(VLNVerse),以及14種機械臂的人機轉移。該模型在EWMBench和DreamGen Bench兩項評估世界模型預測和生成真實物理環境的基準測試中名列第一,並在WorldModelBench和PBench上擊敗所有開源模型,同時在物理法則遵循方面(牛頓定律、質量守恆、流體力學、重力)達到完美分數。
阿里巴巴的戰略優勢與技術突破
阿里巴巴在中國是唯一一家橫跨晶片、雲端、模型、服務平台和應用程式的公司。對阿里巴巴而言,機器人技術是其對「具身AI」押注的最具體體現。現有的AI代理主要依賴大型語言模型來驅動決策,而傳統機器人則透過機器學習模型運作,儘管先進,卻缺乏生成式AI的適應性。物理代理面臨的是截然不同且更困難的失敗模式:物理法則,而非提示詞(prompts)的限制。
相較於西方實驗室(如Google DeepMind、Nvidia、Figure、Physical Intelligence)多數專注於導航或操作的單一面向,阿里巴巴的優勢在於其垂直整合能力,從晶片到應用程式,全面掌控整個堆疊。此外,其開源基礎模型策略也與依賴私有機器人數據的競爭對手形成區隔。
釐清誤解:這不是機器人,也不是傳統大型語言模型
值得注意的是,通義千問機器人套件並非實體機器人,而是軟體模型——它們是「大腦」,而非「身體」。這些模型可以在AgileX、Franka、Universal Robots、Unitree等公司的硬體上運行。
儘管這些是為機器人設計的生成式AI模型,但它們與典型的ChatGPT等大型語言模型有本質上的不同。大型語言模型主要預測詞元(tokens),而這些機器人模型必須理解物理、空間關係以及物理動作的後果。一個大型語言模型能告訴你玻璃掉落會碎,但通義千問機器人世界模型能預測它如何碎裂——碎裂模式、流體動力學、二次碰撞等。而通義千問機器人操作模型則能規劃一個完全避免掉落的抓取方式。
現實挑戰:從實驗室到家庭仍有漫漫長路
儘管技術成就斐然,但我們不應期待很快就能擁有家用女傭機器人。從機器人將水果放入籃子的受控演示,到機器人能在家中可靠運作,兩者之間存在巨大的鴻溝。目前許多基準測試,如RoboCasa365、LIBERO-Plus、RoboTwin-Clean2Rand,都屬於模擬環境。真實世界的部署會引入感測器雜訊、致動器漂移以及歷史上所有機器人研究都曾面臨的長尾邊緣案例,阿里巴巴也清楚意識到這一點。
然而,這套件的技術突破是真實存在的。通義千問機器人操作模型以「對齊優先」(alignment-first)的方法解決了跨具身訓練的真正瓶頸;通義千問機器人導航模型的參數化觀察介面,巧妙地解決了情境策略問題;而通義千問機器人世界模型將語言作為通用動作介面的抽象,則是跨領域世界建模的正確方向。
目前,阿里巴巴尚未公布通義千問機器人套件的定價、上市時間表,以及除了試點計畫之外,哪些客戶將能取得使用權限。



