
微新创想
近日苹果AI研究团队发布了一项重大突破,推出了名为LiTo的表面光场标记化大模型。这一创新技术成功攻克了3D重建领域的核心难题,使得仅凭一张平面图像即可重建出完整的3D对象。不仅如此,LiTo还能高度还原多视角下的光影效果,彻底打破了传统3D重建需要多角度图像输入的限制。
LiTo模型的核心突破在于其创新应用了潜在空间技术,并首创了一种统一的3D潜在表示法。该模型将表面光场数据编码为紧凑的向量集,通过数学描述掌握物体的物理形状以及光线与物体表面的交互规律。这一方法显著降低了计算成本,使得3D重建过程更加高效和实用。
为了实现这一目标,LiTo采用了编码器 – 解码器的双向机制。编码器负责将输入图像中的几何结构和视角相关的外观特征压缩为潜在空间中的精简代码,而解码器则逆向解压这些代码,还原出完整的3D对象。这种机制不仅提升了重建的精度,还能精准复现镜面高光、菲涅尔反射等高级光影效果,为视觉呈现带来了更高的真实感。
在训练过程中,苹果研究团队使用了数千个3D对象的数据集,并在150个不同视角和3种光照条件下进行了高强度训练。通过抽取小部分数据样本,模型能够让解码器掌握不同光照和视角下的对象还原能力,从而实现单张图片即可预测三维潜在表示的突破性功能。
在官方对比测试中,LiTo模型严格遵循摄像机坐标系,有效解决了同类模型在生成物体朝向时容易出现的错误问题。其多视角光影一致性指标相比当前最优的TRELLIS模型提升了约37%,展现出卓越的性能和可靠性。这一成果不仅为3D重建技术带来了新的可能性,也为未来的虚拟现实、增强现实和影视制作等领域提供了强有力的技术支持。
