本报讯 (记者贾丽)近日,北京人形机器人创新中心(以下简称“北京人形”)在WorldArena全球权威评测中连下两城——继WoW具身世界模型登顶WorldArenaDataEngine(数据引擎)赛道后,首个“具身大一统”模型Pelican-Unify1.0在WorldArena综合评测中再度登顶。北京人形由此成为全球唯一在WorldArena两大核心赛道同时夺冠的企业,加冕具身智能领域首个“双冠王”,具身大脑能力跻身世界第一梯队。
Pelican-Unify1.0作为通用具身智能平台“慧思开物”的重要组成部分,该模型在理解、推理、想象、行动等维度同时达到全球顶尖水平,世界模型各项能力尤为突出,并登顶WorldArena权威榜单。业内人士认为,这标志着具身智能从“功能拼凑”迈入了“协同进化”的新阶段,为迈向通用具身智能奠定了坚实的技术与路径基础。
真机验证闭环智能产生实际价值
WorldArena由清华大学联合普林斯顿大学、中国科学技术大学等8所顶尖机构共同发起,吸引了全球几乎所有头部世界模型团队参评,在激烈角逐中,Pelican-Unify1.0凭借硬核的技术实力脱颖而出,登顶WorldArena。
其中,EWMScore(综合得分)稳居榜首:在包括视觉质量、运动质量、内容一致性、物理遵循以及3D准确性等多维度且极其严苛的整体评估中,Pelican-Unify1.0拿下了综合第一,各项能力完美平衡,能够全方位支撑复杂的具身长程任务。
过去,具身智能沿着多条路线快速发展:VLM擅长理解图像和指令,VLA能够将视觉语言输入映射为动作,世界模型能够预测未来状态。但这些路线往往各自优化、分段连接,容易形成“看、想、动”之间的断裂:理解不能直接被行动验证,行动缺少未来后果的约束,世界想象也难以被语言推理稳定引导。
Pelican-Unify1.0的核心思路是,理解、推理、想象与行动不应是四个孤立模块,而应是同一个物理智能回路的不同侧面,具体实现统一理解、统一推理、统一生成。
Pelican-Unify1.0的关键能力是能够在动作执行前生成未来视觉状态,并让动作预测与未来想象相互对齐。模型接收历史观测和动作条件后,可以预测对应未来视频,使动作命令与生成帧之间保持细粒度一致。
这意味着,Pelican-Unify1.0的“想象”不是脱离执行的视觉生成,而是服务于机器人行动的未来预演;“动作”不再只是从图像和语言里直接回归出来,而是在同一个生成过程中与未来状态共同建模;未来画面约束动作是否合理,动作轨迹也约束未来是否可达。对于复杂操作任务,这种机制能够帮助模型更好地处理长程依赖、物体接触、遮挡和空间变化。
真实机器人是检验“推理—想象—行动”闭环的真正考场。北京人形将Pelican-Unify1.0部署至天工人形机器人及UR5e机械臂上,重点验证组合泛化与零样本迁移。在组合泛化实验中,模型仅用“插入RJ45接头”和“做防水处理”等原子任务训练数据,未见过完整组合演示。测试中,机器人需依照自然语言指令先插线、后防水,跨阶段保持任务目标并基于前序结果规划下一步,Pelican-Unify1.0成功完成了这类未见过的长程组合任务。
迈向通用具身智能的新范式
Pelican-Unify1.0登顶的意义并不只是拿到某一个榜单第一,而是提出了一条更接近通用具身智能的建模路径:不再把理解、推理、想象与行动视作独立模块分别优化再通过工程方式拼接,而是从一开始就让它们共享表示、共同训练、相互塑形。
这一路线的价值在于,它让模型既能保持专家能力,又能在真实任务中形成更完整的闭环智能。机器人可以理解目标与场景,推理过程让任务意图变得可监督,未来想象让动作具备后果意识,而动作执行又反过来检验理解和想象是否可靠。Pelican-Unify1.0表明,具身智能的下一阶段可能不只是更大的视觉模型、更强的动作策略或更逼真的世界模型,而是一个能够把“看见、思考、想象、行动”统一起来的自适应系统。
Pelican-Unify1.0的研发主体——北京人形机器人创新中心,以通用机器人平台“具身天工”和通用具身智能平台“慧思开物”为双核心,构建起覆盖“本体—大脑—小脑—平台—生态”的全栈式闭环体系,让顶尖模型融入真实的生产与服务场景,释放其真正的价值。
业内人士认为,具身智能下一阶段的关键词,是形成更完整的闭环和大脑各部分能力的协同进化。而北京人形以“双冠王”的技术积累,降低了具身智能的进入门槛,加速人形机器人从专用设备向通用生产力工具的演进。
(编辑 赵思卓 汪世军)