
腾讯混元于12月17日重磅发布全新升级的混元世界模型1.5版本,这一突破性技术革新将彻底改变虚拟世界构建与交互体验。用户只需输入文字描述或上传图片,即可一键生成高度个性化的互动场景,开启全新的数字创作之旅。通过键盘、鼠标或游戏手柄等设备,用户能够像操控游戏一样自由移动虚拟相机,实时探索由AI精心打造的沉浸式三维世界。
此次发布的混元世界模型1.5不仅实现了功能上的重大突破,更在技术层面实现了全面开源。作为业界首个系统化、全链路的实时世界模型框架,该模型完整覆盖了数据采集、模型训练、流式推理部署等各个环节,为开发者提供了前所未有的技术支持。特别值得一提的是,混元团队创新性地提出了重构记忆力算法、长上下文蒸馏技术以及基于3D的自回归扩散模型强化学习等核心算法模块,为虚拟世界构建带来了革命性突破。

混元世界模型1.5的核心优势主要体现在三大方面:首先,其实时交互生成能力达到了业界领先水平。通过原创的Context Forcing蒸馏方案和流式推理优化技术,模型能够以每秒24帧的速率生成720P高清视频,为用户带来流畅细腻的视觉体验。其次,该模型在长范围3D一致性方面实现了重大突破。通过重构记忆机制,模型能够支持分钟级内容的几何一致性生成,为构建高质量3D空间模拟器提供了强大技术支撑。最后,混元世界模型1.5还具备多样化的交互体验能力。无论是游戏场景还是现实模拟,无论是第一人称还是第三人称视角,该模型都能提供无缝支持,并具备实时文本触发事件和视频续写等创新功能。
据了解,混元世界模型1.5的核心是WorldPlay自回归扩散模型。该模型采用Next-Frames-Prediction的视觉自回归任务进行训练,成功实现了长范围几何一致性的实时交互式世界建模。这一创新性突破不仅解决了业界长期困扰的实时性与几何一致性难以兼顾的难题,更为虚拟现实、数字孪生等领域的发展开辟了全新路径。随着混元世界模型1.5的正式发布,我们有望见证更多创新性虚拟应用和数字体验的诞生,开启人工智能驱动的数字世界新纪元。
