腾讯开源WorldCompass推动世界模型强化学习精细化调优时代来临

2026-03-11 14:09:59 AI动态 4 次阅读

微新创想：腾讯混元3D团队昨日宣布正式开源业界首个面向世界模型的强化学习后训练框架WorldCompass。该框架作为混元世界模型1.5的官方强化学习扩展模块，旨在显著提升世界模型在交互过程中的准确性与用户体验。当前主流世界模型主要依赖大规模预训练，但在面对用户复杂的组合动作指令时，往往会出现“理解偏差”或执行不精准的问题。WorldCompass 的出现为解决这一痛点提供了全新的“指南针”。

通过引入强化学习机制，该框架能够对预训练模型进行深度调优，使其能更准确地解析并执行复杂的动作指令，告别“听不懂”指令的尴尬。评测数据显示，在应用 WorldCompass 后，开源 SOTA 模型 WorldPlay 在最困难的复合动作场景下，交互准确率（Accaction）从约20% 飙升至55% 以上，提升幅度超过35%。这一突破性的成果表明，强化学习在提升世界模型性能方面具有巨大潜力。

除了动作控制的增强，该框架还显著改善了视觉保真度评分（HPSv3），确保模型在长距离、长时间序的虚拟世界漫游中保持视觉表现的一致性。这种视觉与动作的双重优化，使得虚拟环境更加真实、自然，为用户带来更沉浸的交互体验。

腾讯混元团队表示，WorldCompass 的发布标志着世界模型正式从单纯的“预训练时代”跨入“强化学习精细化调优时代”。目前，WorldCompass 的相关技术已在混元 WorldPlay 模型上得到验证，腾讯已将相关代码及技术报告全文开源。此举旨在为全球开发者构建更智能、可控的“生成式世界模拟器”提供技术路径。

划重点🎯 精准控场：攻克了世界模型在复杂动作指令下执行不精准的行业难题，准确率实现倍数级增长。🤖 RL 深度赋能：证明了强化学习在长时序、交互式世界模型中具备巨大的调优潜力。🌐 全栈开源：从代码到模型细节全面开放，助力开发者打造更具沉浸感的虚拟交互环境。🚀 代际跨越：推动世界模型技术重心从数据堆叠转向对交互逻辑的精细雕琢。