昆仑万维在北京举办的 SkyWork AI 技术发布周上,隆重推出了 Matrix-3D 这一革命性的 3D 世界生成大模型,为 3D 生成技术领域带来了突破性的进展。这一创新成果旨在突破传统 3D 场景生成技术的瓶颈,解决其在视角范围、几何一致性和视觉质量方面长期存在的局限性。传统方法往往需要依赖多视角输入才能构建完整的 3D 世界,而 Matrix-3D 则通过整合全景视频生成和三维重建技术,实现了从单张图像到高质量、可探索的 3D 空间的无缝转换。
Matrix-3D 的核心技术优势主要体现在以下几个方面。首先,其轨迹引导的全景视频生成模块通过使用场景 Mesh 渲染图作为条件输入,训练出能够生成符合相机轨迹的全景视频的视频扩散模型。这一技术不仅提高了视频在空间结构上的一致性,还有效减少了遮挡错误和图像伪影,从而生成更加逼真的 3D 场景。其次,双路径全景 3D 重建模块为用户提供了两种优化路径选择。一种是通过对超分辨率和 3D 结构进行优化,获取高质量的 3D 模型;另一种则是基于 Transformer 的前馈网络,能够快速预测 3D 几何属性,实现高效重建。最后,Matrix-Pano 数据集的规模庞大,包含 116K 条带有相机轨迹、深度图和文本注释的静态全景视频序列,为生成模型的训练提供了坚实的基础。
Matrix-3D 支持用户通过文本或图像输入,生成可自由探索的 3D 场景,其主要特点包括视角一致性、几何与色彩一致性,以及精准控制与范围扩展。视角一致性确保生成的 3D 场景支持 360 度自由环视,内容始终保持一致;几何与色彩一致性则保证了生成的 3D 场景在几何关系和遮挡关系上准确无误,不同区域颜色协调统一;精准控制与范围扩展则允许用户根据输入轨迹生成不同的 3D 场景,并在生成的场景基础上进行无限扩展。
Matrix-3D 作为 3D 世界生成的重要里程碑,预计将在多个领域发挥重要作用。在游戏与影视制作领域,Matrix-3D 能够快速生成高质量的 3D 场景,显著降低制作成本,同时提高沉浸感。在具身智能领域,Matrix-3D 可以构建可控的模拟环境,为机器人训练和自动驾驶测试提供强大的支持。此外,Matrix-3D 还具有广泛的应用前景,有望在虚拟现实、增强现实、数字孪生等领域发挥重要作用。
昆仑万维的 Matrix-3D 项目主页及相关技术报告现已上线,进一步推动 3D 生成技术的发展。用户可以通过以下链接获取更多信息:GitHub:https://github.com/SkyworkAI/Matrix-3D,HuggingFace:https://huggingface.co/Skywork/Matrix-3D,技术报告:https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf,项目主页:https://matrix-3d.github.io/。