
AIエージェントの能力がソフトウェアの世界で急進化する中、その知能を物理的な実体(ロボット)に統合し、現実世界で動作させる「身体性AI(Embodied AI)」へのシフトが本格化しています。アリババのオープンソースAI研究チームであるQwen Team是、ロボティクス分野における大規模な成果として、ロボットの「移動」と「操作」をそれぞれ司る2つのVLA(視覚・言語・行動)基盤モデル**「Qwen-RobotNav」と「Qwen-RobotManip」**を公開しました。
これまでのロボット制御モデルが特定のハードウェアやタスクに依存していたのに対し、Qwen-Robotシリーズは多様なロボット(4脚歩行ロボット、単腕・双腕ロボットアーム、多指マニピュレータなど)の構造やカメラ位置の違いを吸収し、汎用的な命令実行と自律制御を実現している点が最大の強みです。
1. 3Dアライメントで異種データを統合する「Qwen-RobotManip」
ロボット操作(マニピュレーション)モデルの開発において、最大かつ伝統的な障壁は「データの不均一性」でした。世の中にはアームの形状、関節の数(自由度)、搭載カメラの位置、座標系が異なる無数のロボットが存在し、これらを共通のモデルで学習させることは困難でした。
Qwen-RobotManipは、**「Qwen3.5-4B」**の視覚・言語バックボーンに、フローマッチング技術(Flow-Matching)に基づくDiffusion Transformer(DiT)アクションモジュールを結合。この課題をクリアするために、以下の画期的なアプローチを採用しています。
- 80次元の標準状態・行動空間(80D Canonical Action Space): あらゆるアームやハンドの構成を内包する80次元の共通テンプレートを用意し、各ロボットに存在しない関節の情報はマスク処理(バイナリマスク)で無効化。これにより、シングルアーム、ダブルアーム(ALOHAなど)、多指ハンド(ARXなど)の異なるハードウェアデータを一括して事前学習(约3.8万時間分)することに成功しました。
- カメラ座標系ベースの動作生成(CaPEの採用): ロボットのベース(土台)基準ではなく、カメラから見た相対的なエンドエフェクタ(アームの先端)の移動量を予測。さらに、カメラの幾何学情報を位置エンコーディング(CaPE)としてインジェクションすることで、ロボットアームとカメラの取り付け位置が違っても、同じ見た目の動作を共通の数値表現でモデルが学習できるようにしました。
実機検証(RoboChallenge Table30)において、Qwen-RobotManipは総合1位(平均成功率45%)を記録。特に「ポテトをお皿に注ぐ」といった、掴む・持ち上げる・傾けるといった複数ステップの双腕協調タスクで従来の基準モデルを20%以上上回る性能を示し、滑り落ちたり失敗した際に自律的に掴み直す「リアクティブ・リカバリ(反射的回復)」の能力も備えています。
2. 状況適応型の観察プロトコルを備えた「Qwen-RobotNav」
もう一方のモデル「Qwen-RobotNav」は、ロボットの「移動・ナビゲーション」に特化したモデルで、**「Qwen3-VL」**をベースに構築されています。
最大の特徴は、モデルが周囲の環境画像(入力)から自律的に**「8つの通過点(Waypoint:x, y, θ)」**を予測し、上位のAIエージェントプランナーからの細かな制御命令を受け取れる「観察プロトコル(Controllable Observation Protocol)」を搭載している点です。
このプロトコルにより、以下のような推論時の制御がコードを変更することなく可能です。
- ビジュアルトークン予算の動的調整:状況に応じてカメラ入力の処理優先度を設定。
- 時間的減衰(Temporal Decay):目標物を追跡するときは最新のフレームを重視し、長距離の道順を辿るときは過去の記憶を重視する制御。
- ゼロサンプル実機デプロイ: Qwen-RobotNavは、Unitree(宇樹科技)の4脚ロボット犬「Go2」に直接デプロイ(オンデバイス推論はNVIDIA Jetson Thorを使用)され、事前の微調整なしで実動作に成功。狭いアパートでの「寝室を出てバスルームに移動して」といったステップ指定の言語指示から、展示会場での20mを超える長距離走行、さらには「コッティコーヒーに緑の伞が置き忘れられていないか確認して」といった抽象的なミッションを自律的に分解・探索する「エージェント型ナビゲーション」を実現しました。
3. 「Qwen-Omni」との融合が描く自律協調の未来
Qwenシリーズのもう一つの强みは、音声対話大モデル「Qwen-Omni」とのシームレスな融合です。
デモ映像では、Qwen-Omniが現実世界のカメラ映像を観察し、音声でロボットアームにリアルタイムで「そのリンゴを右の箱に移して」とタスクを指示。Qwen-RobotManipがアームを自律制御して実行し、その結果をQwen-Omniが「うまくできたね」と音声で評価するシーンが公開されています。
这是、従来の「プログラムされたロボット」から、「人間の声を聞き、周囲を目で見て、物理アームで実行する」という、全身の感覚と知能が真にアライメントされた次世代の身体性AI(Embodied AI)が、一般のオフィスや工場、店舗に導入される未来を予感させるものです。
4. 身体性AIプラットフォームのポジショニング比較
Qwen-Robotシリーズと、従来のロボット制御アプローチの違いは以下の通りです。
| 項目 | Qwen-Robot (Nav & Manip) | 従来のシングルタスクモデル | 伝統的ロボット制御 (ROS/C++等) |
|---|---|---|---|
| ハードウェア依存度 | 極めて低い(アライメント空間で統一) | 高い(ロボットごとに別モデル) | 極めて高い(専用設計が必要) |
| 指示への適応性 | 自然言語(「ドアを開けて」等)に完全対応 | 単一動作のみ(「押す」等) | 事前定義された座標のみ |
| 想定されるユースケース | 自律エージェントの指示による店舗・家庭サポート | 単一工場ラインの選別 | 工場の定型繰り返し作業 |
| データ効率 | 異種ロボット・人間動画からの事前学習で高効率 | 膨大な実機データ収集が必要 | 手動での細かな軌道プログラミング |
[!TIP] 【編集部解説】「身体性AI」の標準化争いで一歩リードする中国勢 これまでロボット工学は、日本を含め精密なハードウェアと「手書きのルール(制御ロジック)」で差別化を図ってきましたが、AI大モデル(VLM)の登場により「データ量と学習モデルの標準化」へと完全にパラダイムが移行しました。アリババが異種ロボットアームの動作空間を「80次元の共通表現」にアライメントして开源(オープンソース)化したことは、OS(オペレーティングシステム)レベルでの主導権争いで大きなアドバンテージを得たことを意味します。
[!NOTE] 公式コードと技術リポート 本プロジェクトのより詳細な仕様や宇樹Go2での実機デプロイ映像を確認したい方は、Qwen-RobotNav GitHub および Qwen-RobotManip GitHub をご覧ください。
コメント
...