本报讯 (记者刘钊)6月29日,无界动力正式发布全球首个“长时序双向物理因果链”隐空间世界模型——MWA™具身通用大脑。同期,在由斯坦福大学等顶尖机构联合发起的具身智能权威榜单RoboCasaGR1 TableTop中,无界动力与中国科学院自动化研究所联合发布的MWA™-WALA,以75.2%的平均任务成功率刷新纪录、位列全球第一,超过英伟达GR00T-N1.6、大晓机器人ACE-EGO-0、小鹏DIAL、高德ABot-M0等主流模型。
具身智能走向规模应用,关键不只是让机器人识别物体、复现动作,更在于使其理解物理世界的规律和因果关系,并在复杂环境中形成稳定、可执行的决策。基于这一判断,无界动力自创立以来持续探索“隐空间世界模型+强化学习”的双轮驱动路径:前者帮助机器人建立关于环境、动作与结果之间关系的“世界观”,实现对未来状态的预测;后者通过试错、奖励与策略优化,形成面向具体任务的“价值观”,将理解转化为精准操作。
不同于侧重预测下一帧画面的传统视频生成式世界模型,隐空间世界模型不追求对现实场景进行像素级复刻,而是聚焦与决策有关的物理变化,过滤冗余视觉信息,在统一潜空间中完成推演。无界动力认为,具身大脑的目标并非完整复制客观世界,而是像人类大脑一样,从复杂信息中提炼物理因果和高维常识,以较高效率服务于真实任务。
在此基础上,MWA™采用“双向动力学”架构。其中,逆动力学编码器通过观察前后时序画面的空间结构变化“由果推因”,从无标注的多源数据中提炼通用的场景交互变化表征,并在预训练后为后续策略训练提供稳定的潜态对齐目标;正动力学解码器则将抽象动作表征注入视觉特征,推演未来场景可能发生的变化。正逆协同的自监督机制,使模型能够持续校正预测偏差,提升复杂环境下决策的稳健性。
MWA™进一步引入时序Chunk级逆向动力学建模机制,突破传统世界模型单步潜动作推理的局限,可批量输出连续多步Latent Action Chunk动作组。由此,机器人可对更长时间跨度内的动作链和操纵事件进行前置推演,减少长周期作业中的误差累积和动作割裂,提升多步骤连续操作、受限空间取物等任务的连贯性与精确度。
潜动作是这一架构中的物理因果“载体”。它并不对应某一具体硬件的控制序列,而是对场景交互变化的抽象表征。这一设计一方面降低了对高质量动作标签的依赖,使模型能够从海量无标注视频中学习通用物理常识;另一方面也使潜空间的关注点集中于动态交互本身,提高数据利用效率。基于此,MWA™形成“先练脑、再练手”的两阶段训练闭环:预训练阶段建立物理规律认知,策略训练阶段再将抽象表征映射为不同本体的控制指令,为跨场景部署提供基础。
面向强化学习过程中样本结构单一、负样本不足的问题,无界动力同步构建了AnyPhys for RL负样本核心数据体系。该体系将失败、失稳、临界边界、次优和基准正样本结合起来,为策略训练提供更稠密的奖励信号和更明确的物理边界。通过自动识别前进、倒退、停滞等状态,模型可对样本进行打分和分类,减少额外人工标注。在高精密插接任务实测中,相关方法在噪声数据条件下将任务成功率最高提升5倍。目前,AnyPhys已沉淀数万条失败、失稳及临界边界样本,覆盖工业、商业和生活等主要场景。
从训练和部署的关系看,这一路径强调以更广泛的数据建立通用认知,再以真实交互不断修正策略。相较于仅依赖特定任务演示或单一正向样本的训练方式,模型既要知道什么动作能够完成任务,也要理解偏离目标、触及边界或发生扰动时可能带来的后果。这样的边界学习,有助于机器人在环境变化、物体摆放差异和任务步骤增加时保持更稳定的执行表现,并为后续进入更开放的实体场景积累可复用能力。
RoboCasa GR1 TableTop覆盖非标厨房环境、交互物件以及随机光影、杂物等干扰因素,是检验机器人操作泛化能力的重要仿真基准。测试显示,MWA™-WALA平均任务成功率为75.2%,较第二名模型高出2.4个百分点,并在多步骤连贯操作、受限空间物件拿取和零散物件精准拾取等任务中表现突出。这一结果也验证了以无标注数据训练物理因果能力、结合强化学习提升执行策略的技术路径。
目前,无界动力正推动具身通用大脑和操作智能向真实应用延伸。随着第二代机器人K15进入批量投产阶段,公司正以软硬一体解决方案布局多元场景:在工业制造中,面向高精度、长周期和高可靠性作业需求,与汽车产业链及能源科技企业开展合作;在商业服务与零售场景中,与连锁咖啡品牌等合作,将机器人带入开放、动态环境;在家庭场景中,则围绕多物品、多任务和连续交互,提升机器人的自适应决策能力。
无界动力表示,未来将继续围绕真实需求迭代模型与机器人能力,深化与产业伙伴的协同,加快具身智能在工业、商业和家庭等场景中的应用,让技术能力在持续交互和数据反馈中完成进化。
(编辑 吴越 郭之宸)