在世界机器人大会上,阿里达摩院重磅宣布开源三项自研核心技术:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及机器人上下文协议RynnRCP。这一战略举措旨在推动数据、模型与机器人本体的兼容适配,彻底打通具身智能开发的完整流程。随着具身智能领域正经历前所未有的快速发展,开发流程碎片化、数据模型与机器人本体适配困难等关键挑战日益凸显。达摩院创新性地将MCP(模型上下文协议)理念引入具身智能领域,首次提出并开源RCP(机器人上下文协议),致力于打破不同数据、模型与本体之间的壁垒,实现无缝对接适配。
达摩院精心打造的RynnRCP是一套完整的机器人服务协议和框架,能够实现从传感器数据采集、模型推理到机器人动作执行的完整工作流程打通,帮助用户根据具体应用场景轻松完成适配工作。目前,RynnRCP已支持Pi0、GR00T N1.5等多款热门模型,以及SO-100、SO-101等多种机械臂,支持范围正在持续扩展。
RynnRCP架构解析:构建标准化连接桥梁
RynnRCP包含两个核心模块:RCP框架和RobotMotion。RCP框架负责建立机器人本体与传感器的连接,提供标准化能力接口,实现不同传输层和模型服务之间的兼容性。RobotMotion则充当具身大模型与机器人本体控制之间的桥梁,能够将离散的低频推理命令实时转换为高频连续控制信号,确保机器人运动的平滑性和物理约束符合性。此外,RobotMotion还提供了一体化仿真-真机控制工具,为开发者提供便捷的上手体验,支持任务规控、仿真同步、数据采集与回放、轨迹可视化等功能,有效降低策略迁移的技术门槛。
两大开源模型:从视觉理解到世界感知
达摩院同时宣布开源两款具身智能大模型,为行业发展注入新动力。RynnVLA-001是达摩院自主研发的基于视频生成和人体轨迹预训练的视觉-语言-动作模型。该模型的突出特点是能够从第一人称视角的视频中学习人类操作技能,并将这些技能隐式迁移到机器人手臂操控中,使机械臂操作更加连贯、平滑,更接近人类自然动作。世界理解模型RynnEC将多模态大语言模型引入具身世界,为大模型赋予了理解物理世界的能力。该模型能够从位置、功能、数量等11个维度全面解析场景中的物体,在复杂室内环境中实现精准的目标物体定位和分割。其创新之处在于无需依赖3D模型,仅通过视频序列就能建立连续的空间感知能力,同时支持灵活的交互操作。
产业生态布局:构建开放协作平台
据了解,达摩院正在具身智能领域进行积极投入,重点聚焦系统和模型研发,与多方合作共建产业基础设施。合作范围涵盖硬件本体和标准组件适配、数据采集,以及DAMO开发者矩阵等技术社区建设,目标是拓展机器人产业空间,加速实际场景的商业化落地。值得一提的是,达摩院在上月还开源了WorldVLA模型,首次实现世界模型与动作模型的融合,显著提升了图像与动作的理解与生成能力,获得了业界广泛关注。这一系列开源举措表明,达摩院正通过技术开放共享的方式,推动整个具身智能行业的协同发展和技术进步。
开源链接:
机器人上下文协议RynnRCP https://github.com/alibaba-damo-academy/RynnRCP
视觉-语言-动作模型 RynnVLA-001 https://github.com/alibaba-damo-academy/RynnVLA-001
世界理解模型 RynnEC https://github.com/alibaba-damo-academy/RynnEC