Qwen 进军物理世界
6月16日,阿里通义千问团队发布了 Qwen-Robot Suite,这是 Qwen 系列首次涉足物理世界机器人控制。套件包含三款独立的基础模型,分别覆盖机器人操作、导航和世界建模三个核心问题。
目前这套模型已在阿里云部分企业客户中试点。
三款模型各自解决什么问题
Qwen-RobotManip 是一款视觉-语言-动作(VLA)模型,基于 Qwen3.5-4B 构建。它解决的核心问题是:不同厂商的机械臂动作空间完全不同,同一个抓取策略换一台机器人就失效。RobotManip 用一个 80 维的统一动作表征来对齐不同硬件的动作编码——开发者在不同机器人之间切换时只需微调,不需要从头训练。
训练数据来自 38,100 多小时的开源操作视频,其中一条人工到机器人的合成管线从 1,933 小时的人类第一视角视频生成了 24,808 小时的机器人演示数据,覆盖 15 种机器人平台。
Qwen-RobotNav 基于 Qwen3-VL 构建,有 2B、4B、8B 三个参数量版本。它把指令跟随、目标导航、物体搜索、跟踪、自动驾驶五类导航任务统一到一个框架中,输出 8 航点轨迹(含位置和朝向)。任务切换不需要换模型,通过参数化观察接口动态调整记忆策略。
Qwen-RobotWorld 是一个语言驱动的视频世界模型,60 层双流 MMDiT 架构,参数量约 200 亿。它用自然语言作为统一的动作接口,输入当前观测和语言指令就能预测未来视频。训练语料包含 860 万对视频-文本对,超过 2 亿帧。这套模型既能用于运动前的预演纠错,也能生成合成训练数据补充其他两个模型的训练管线。
实测成绩
RobotManip 在多个跨具身基准上拿到了当前最优:
| 基准 | 前最佳 | Qwen-RobotManip |
|---|---|---|
| LIBERO-Plus | 84.4% | 91.4% |
| RoboTwin-C2R Hard | 47.9% | 69.4% |
| EBench | 27.1% | 45.6% |
| RoboTwin-IF | 49.6% | 72.2% |
跨具身迁移率从此前最好的 7.5% 提升到 23.9%,是原来的 3.2 倍。在 RoboChallenge Table30 的 30 个真实任务赛道上,RobotManip 包揽前两名(代号 Lira 和 Atlas),领先第三名 20 个百分点。
RobotNav 在五个导航领域都拿到了最优——VLN-CE RxR 成功率 76.5%,HM3Dv2 物体目标导航 75.6%(纯 RGB),NAVSIM 上 91.4 PDMS。在 Unitree Go2 四足机器人上零样本部署测试,用机载低分辨率摄像头实现了 196 毫秒延迟。
RobotWorld 在 EWMBench 和 DreamGen Bench 上均排名第一,运动保真度 HSD 0.566,比第二名高 33%。在 WorldModelBench 的四个物理一致性类别上拿到满分。
竞争格局
Google DeepMind 有 Gemini Robotics,NVIDIA 有 Isaac GR00T,Physical Intelligence 有 π 系列模型。阿里在国内市场面对的对手包括华为和百度。
阿里给自己的定位是"全栈"——从芯片、智算云、模型、模型服务平台到应用五层。Robot Suite 把这条链延伸到了物理层。有一个有意思的类比:CUDA 成功的原因是在 GPU 硬件和应用开发者之间插入了统一的软件接口,硬件差异被平台层吸收。阿里想在机器人领域做同样的事——建一个机器人软件和碎片化硬件之间的通用抽象层。
这套模型已和 Agibot 等国内机器人厂商建立合作,通过阿里云打包模型授权和算力,缩短机器人开发周期。
实际检验才刚开始
基准分数很好看,但机器人领域的老问题是:实验室里能跑的,到产线上不一定行。光照变了、抓取角度偏了、传感器受干扰了,模型表现可能完全不一样。之前 PI 的展示视频很惊艳,但产线部署和演示视频之间还有很大的距离。
阿里没有把这三个模型当作纯研究论文来发,而是已经在企业客户中试点。这个做法比较务实。跨具身迁移率 3.2 倍的提升说明统一表征框架确实有效,但真实部署中的鲁棒性、延迟和故障恢复能力还需要更多验证。
中国具身智能行业正从实验室走向商业化,消费级机器人市场预计两到三年内成形。谁在模型层建立起事实标准,谁就在下一轮竞争中占到先手。阿里这次卡位很快。




