字节跳动GR-3通用机器人模型突破性进展:高灵巧度操作与泛化能力

字节跳动Seed团队近日重磅推出全新Vision-Language-Action Model(VLA)模型GR-3,这一突破性成果在机器人操作领域展现出惊人的潜力,不仅能够精准理解包含抽象概念的语言指令,还能灵活操作柔性物体,并具备强大的任务迁移与物体泛化能力,被视为迈向通用机器人“大脑”的关键一步

传统机器人操作模型往往依赖海量机器人轨迹数据进行训练,导致在新任务中迁移成本高昂、效率低下。而GR-3的创新之处在于,仅需少量人类数据即可实现高效微调,其核心突破在于采用Mixture-of-Transformers(MoT)网络结构,将视觉-语言模块与动作生成模块整合为40亿参数的端到端模型。其中,动作生成模块通过Diffusion Transformer(DiT)结合Flow-Matching技术生成动作,并引入归一化的RMSNorm设计,显著提升了动态指令跟随能力。这一架构使GR-3能够像人类一样,直接根据摄像头画面与语言指令规划连续动作,例如在听到“收拾餐桌”后,自动完成“打包剩菜→收拾餐具→倒垃圾”的全流程操作

在训练数据层面,GR-3彻底突破了单一数据源的局限,通过三合一数据训练法实现能力跃升:首先,利用遥操作机器人收集的高质量真机数据,确保基础操作能力;其次,通过用户授权的VR设备采集人类轨迹数据,使新任务学习效率提升近一倍(450条/小时 vs 传统250条/小时);最后,融合公开可用的图文数据,让模型理解“大”“小”“左右”等抽象概念,并识别未见过物体的特征。这种多样性数据融合策略,使GR-3在未见过的物体抓取任务中成功率较基准模型提升17.8%,仅需10条人类轨迹数据即可将新物体操作成功率从60%提升至80%以上

为验证模型性能,团队在通用拾取放置、长程餐桌清理、柔性衣物操作三大任务中展开系统性测试。在通用拾取放置任务中,GR-3在训练过的场景里指令遵循率和成功率分别达98.1%和96.3%,在新环境(卧室书桌、超市柜台等)中性能几乎无衰减,且能精准处理“把雪碧旁边的可乐放进盘子”等涉及空间关系的复杂指令。长程餐桌清理任务中,GR-3可自主完成多步骤操作,平均完成度超95%,并能严格跟随分步指令,面对无效指令时准确判断不动作。柔性衣物操作测试显示,GR-3在挂衣服任务中完成度达86.7%,即使面对短袖等未见过的衣物款式或混乱摆放状态,仍能稳定完成任务

字节跳动GR-3通用机器人模型突破性进展:高灵巧度操作与泛化能力插图1

与硬件的协同创新是GR-3的另一大亮点。团队研发的通用双臂移动机器人ByteMini作为载体,配备22个全身自由度与独特手腕球角设计,结合全身运动控制(WBC)系统,实现狭小空间内的精细操作与平滑轨迹生成。例如,抓取纸杯时能自动调整力度避免捏碎,机械臂可像人类手腕般灵活转动。多摄像头布局(2个手腕摄像头看细节、头部摄像头看全局)则确保“眼观六路”的感知能力

尽管GR-3在泛化性与操作精度上已超越业界此前可测试的VLA头部模型π0,但团队仍计划通过扩大模型规模、增加训练数据量(如更多物体的视觉语言数据、复杂任务机器人数据)进一步提升泛化能力。同时,引入强化学习(RL)方法突破模仿学习局限,使机器人在遇到物体滑落等突发情况时能自主调整策略,增强抗干扰能力

字节跳动Seed团队表示,GR-3的研发旨在解决传统机器人“听不懂抽象指令”“不适应环境变化”“做不好长程任务”的三大瓶颈。未来,团队将持续探索大模型与机器人技术的深度融合,推动通用机器人“大脑”走进日常生活,成为帮助人类处理各类事务的智能助手。这一成果不仅为机器人学习领域提供了新范式,更让“机器人全能助手”的愿景更近一步

ArXiv:https://arxiv.org/abs/2507.15493
项目主页:https://seed.bytedance.com/GR3

最新快讯

2025年07月23日

01:46
北京时间2025年7月23日,科技界迎来重磅消息。埃隆·马斯克正式披露其人工智能项目xAI的最新进展,宣布已成功将23万块GPU部署于名为Colossus 1的超算集群中,全力支持Grok模型的训练工作。值得注意的是,这批强大的计算资源中包含了3万块高性能GB200 GPU,为模型的复杂运算提供了坚实基础。 xAI在算力部署方面的突破性进展,不仅彰显了其技术...
01:46
2025年5月,美国北达科塔州的石油日产量攀升至惊人的111.279万桶,这一数据再次凸显了该州在美国能源版图中的核心地位。作为美国主要的石油生产州之一,北达科塔州凭借其丰富的油气资源,长期以来一直是美国能源产业的支柱力量。此次公布的产量数据不仅展现了该州在能源生产领域的强劲实力,更反映了其在美国乃至全球能源市场中的重要影响力。随着全球能源需求的持续增长,北...
01:46
2025年7月23日,全球知名科技巨头戴尔科技正式宣布一项重要的领导层调整举措。根据官方公告,公司现任运营主管Jeff Clarke将全面接管个人电脑(PC)业务部门,接替即将调任的Sam Burd。Sam Burd作为原PC业务主管,凭借其丰富的行业经验和管理才能,将转任企业战略部门,负责制定和推进更高层面的战略规划。此次高层人事变动,是戴尔科技为适应快速...
01:46
OpenAI首席执行官Altman近期发表重要观点,指出人工智能(AI)技术将有望帮助人们深入剖析思维过程中的潜在问题。他特别强调,AI能够精准识别某些观点中存在的不足之处,从而为人类决策提供强有力的支持。这一创新应用有望显著提升我们认知能力的深度和广度,为解决复杂问题开辟全新路径。Altman认为,AI作为强大的认知工具,将帮助人们更全面地审视自身思维模式...
01:46
近日,商汤科技正式宣布进军具身智能领域,这一重要战略布局已迈出实质性步伐。据悉,公司核心团队已初步组建完成,并已全面启动业内人才招募计划。值得注意的是,这支精英队伍的构成颇具看点:既有来自商汤科技此前智能驾驶业务部门的资深专家,也有计算机视觉和机器人领域顶尖的研究人员及从业者。这一举措不仅彰显了商汤科技在人工智能领域的持续深耕,更标志着其在前沿科技领域的战略...
01:46
2025年7月23日夜间交易时段,有色金属市场整体呈现强劲上涨态势,多数品种价格均录得显著涨幅。国际铜价表现稳健,上涨0.47%,而国内沪铜也同步上涨0.40%,展现出良好的市场信心。铝价同样表现不俗,沪铝涨幅达到0.31%,反映出行业需求持续回暖。锌价表现最为活跃,沪锌大幅上涨0.48%,显示出较强的上涨动能。铅价虽涨幅有限,但依然录得0.12%的微弱上涨...
01:46
2025年7月23日,ASM国际集团正式发布最新业绩展望,透露了当前季度的财务表现预期。根据公司公告,本季度营收预计将维持与第二季度相同的水平,或可能出现不超过5%的轻微下滑。这一数据反映出市场环境依然存在不确定性,但ASM国际集团仍展现出较强的经营韧性。 在汇率因素方面,ASM国际集团特别指出,若以固定汇率计算,今年整体销售额的同比增长率预计将在10%至2...
01:46
2025年7月23日,现货钯金市场迎来强劲反弹,价格单日涨幅高达2%,强势收报1322.28美元/盎司。这一显著波动不仅凸显了市场对钯金价值的重新评估,更折射出全球工业需求与供应链稳定性的复杂博弈。作为汽车工业不可或缺的关键催化剂原料,钯金的价格波动历来与环保政策、能源结构转型以及新能源汽车发展趋势密切相关。近期市场数据显示,随着欧洲多国加速淘汰燃油车,对高...
01:46
2025年7月23日,伦敦金属交易所(LME)金属期货市场整体呈现上涨态势,多数金属品种价格录得显著涨幅。其中,期铜表现尤为强劲,价格大幅上涨60美元,最终报收于9920美元/吨,展现出市场对铜需求的强劲预期。作为工业金属的代表,期铝同样受益于市场情绪提振,价格上涨12美元,报2658美元/吨,反映出全球经济复苏对铝需求的积极推动。 在基本金属板块中,期锌表...
01:46
苏丹霍乱疫情持续蔓延 卫生部通报最新数据 苏丹卫生部于7月22日发布最新通报,自今年7月起暴发的新一轮霍乱疫情已迅速扩散至全国18个州中的17个州,累计感染病例突破9万大关,达到91034例,死亡人数累计升至2302例。值得注意的是,过去一周新增感染病例高达1307例,死亡人数也达到18例,显示出疫情仍在持续恶化。 此次霍乱疫情不仅波及范围广泛,而且传播速度...
00:39
2025年7月22日,北京时间,一则重磅消息在科技界引发广泛关注:特斯拉创始人埃隆·马斯克的商业伙伴团队正积极筹备为XAI芯片项目注入巨额资金,计划筹集总额高达120亿美元。这一消息传出后,立即引起市场的高度关注。据悉,XAI芯片作为人工智能硬件领域的尖端项目,其研发进程一直备受瞩目。然而,由于项目初期投入巨大,资金消耗速度远超预期,导致项目团队面临前所未有...
00:39
2025年7月23日,北京时间,全球外汇市场迎来重要波动,美元指数DXY出现显著下跌,跌幅达0.5%,最新报收于97.34点。这一数据不仅标志着美元近期表现疲软,更揭示了其在全球货币体系中的短期承压态势。此次下跌背后,是多重因素交织作用的结果,包括全球经济复苏步伐放缓、主要经济体货币政策分化以及市场避险情绪的微妙变化。美元指数作为衡量美元国际购买力的核心指标...