美团 LongCat 团队今日正式揭晓其革新的视频生成模型——LongCat-Video,这一突破性成果标志着美团在探索“世界模型”这一前沿领域取得的重大突破。世界模型作为下一代人工智能的核心驱动力,致力于赋予 AI 更精准地理解、预测和重构真实世界动态的能力。LongCat-Video 基于先进的 Diffusion Transformer(DiT)架构,融合了文生视频、图生视频和视频续写等多项关键功能,展现出卓越的生成性能。
该模型通过创新性地设定“条件帧数量”参数,实现了对不同任务的灵活适配,确保在各种输入条件下均能发挥最佳效果。在文生视频生成方面,LongCat-Video 能够输出720p、30fps的高清视频,其语义理解和视觉呈现能力在开源领域处于领先地位。图生视频功能则能在动态过程中完美保留参考图像的属性与风格,呈现自然流畅的运动效果。
LongCat-Video 最引人注目的特性在于其长视频生成能力。通过视频续写任务的深度预训练,该模型能够稳定输出长达5分钟的连贯长视频,同时有效避免色彩漂移、画质降解和动作断裂等常见问题。这一技术突破不仅显著提升了视频生成质量,更为自动驾驶、具身智能等深度交互场景奠定了坚实的技术基础。

在高效推理方面,LongCat-Video 采用了“二阶段粗到精生成”策略,结合块稀疏注意力(BSA)和模型蒸馏优化技术,将推理速度提升至10.1倍,确保在处理长视频时依然保持出色的生成质量。经过严格的内部和公开基准测试,LongCat-Video 在文本对齐、视觉质量和运动质量等多个维度均表现出色,综合能力达到当前开源领域的SOTA(State of the Art)水平。
美团团队表示,LongCat-Video的发布将极大简化长视频创作流程,让创作者能够轻松将1秒钟的灵感转化为5分钟的完整成片。为了推动技术的普及应用,美团已在GitHub和Hugging Face平台发布了LongCat-Video的完整资源,为个人创作者和行业开发者提供强大工具。这一项目不仅为视频创作领域注入新活力,更标志着美团在智能创作领域的重大进展。随着LongCat-Video的广泛应用,未来的长视频创作将变得更加高效、富有创意。
