微新创想:2026年5月22日,字节跳动正式开源多模态大模型Lance。该模型激活参数量仅3B,原生支持图像、视频理解与生成及跨模态编辑,首次将X2T、X2I、X2V三类任务统一于单一体系。
Lance采用双流专家架构与模态感知旋转位置编码(MaPE),兼顾高层语义理解与低层结构生成需求。这种架构设计使得模型在处理多种模态数据时更加高效和精准。
训练分四阶段,总标记量超1.8T,全程仅需最多128张GPU。这一高效的训练方式不仅降低了计算成本,也提升了模型的训练速度和效果。
基准测试显示,Lance在VBench视频生成达85.11分,超越多个主流模型。这一成绩表明Lance在视频生成领域具备较强的技术实力和竞争力。
模型权重已基于Apache 2.0协议开放于Hugging Face。这意味着开发者可以自由使用、修改和分发该模型,进一步推动多模态AI技术的发展与应用。
