智元机器人重磅宣布开源通用具身基座大模型 GO-1(Genie Operator-1),这一突破性举措标志着全球首个采用 Vision-Language-Latent-Action (ViLLA) 架构的具身智能模型正式向公众开放。此次开源的核心目标在于降低具身智能技术的应用门槛,通过开放源代码,吸引更多开发者投身于这一前沿科技领域,共同推动具身智能技术的创新与发展。这一重要发布紧随其后的是今年1月开源的 AgiBot World 具身智能百万真机数据集,为 GO-1模型的开发奠定了坚实的数据基础。
GO-1模型的核心架构 ViLLA 是一项革命性的技术突破,它赋予机器人更精准地理解人类意图并执行复杂动作的能力。与传统的 Vision-Language-Action (VLA) 架构相比,ViLLA 通过引入隐式动作标记,成功实现了图像、文本输入与机器人实际动作的无缝连接。这一架构的设计巧妙地分为三层,每一层都发挥着不可或缺的作用。
首先是 VLM 多模态理解层,该层基于 InternVL-2B 构建,具备处理视觉、力觉和语言等多种信息的能力,为机器人提供了全面的环境感知能力。其次是 Latent Planner 隐式规划器,它能够实现复杂任务的高层次理解,帮助机器人制定出最优的行动方案。最后是 Action Expert 动作专家,通过扩散模型生成连续的高精度动作序列,确保机器人可以执行复杂的操控任务,展现出卓越的操作性能。
为了进一步赋能开发者,智元机器人还推出了 Genie Studio 开发平台,为开发者提供全方位的解决方案。该平台集成了 GO-1模型,并提供了视频训练方案和统一训练框架,极大地提升了开发效率,助力具身智能技术的快速落地。无论是数据采集、模型训练还是仿真评测,Genie Studio 都能提供一站式服务,让开发者能够更加专注于创新。
GO-1模型虽然基于 AgiBot G1机器人的数据进行预训练,但经过多种机器人平台的验证测试,显示出其良好的可移植性。这一模型已在多个主流仿真平台上取得了优异的性能表现,展现了其适应不同机器人的强大能力。智元机器人鼓励广大开发者访问 GitHub 仓库下载 GO-1模型,开启具身智能的开发之旅。无论是资深 AI 研究者还是新手,GO-1都将为他们提供强大的技术支持。
🌟 全球首个开源的 ViLLA 架构模型 GO-1正式推出。
🔧 Genie Studio 开发平台提供全流程解决方案,助力开发者。
🤖 GO-1模型经过多种平台测试,展现出良好的可移植性。
GitHub:https://github.com/OpenDriveLab/AgiBot-World
Huggingface:https://huggingface.co/agibot-world/