
字节跳动近日重磅推出全新 InfinityStar 视觉生成框架,凭借突破性的技术革新,将5秒720p视频的生成效率提升至惊人的58秒,为视频内容创作领域带来了革命性突破。这一创新框架不仅大幅压缩了生成时间,更通过统一的架构体系,全面支持图像生成、文本转视频、视频续写等多样化视觉任务,为用户带来前所未有的高效创作体验。
InfinityStar 框架的设计理念源于对视频数据本质的深刻洞察。与传统模型将视频视为单一3D数据块的处理方式不同,该框架创新性地采用了时空金字塔模型,将空间尺度与时间维度进行显式分离。这种独特设计使得模型在处理视频时能够精准解耦外观信息与动态运动信息,从而在保持高效率的同时显著提升生成视频的质量与真实感。

为了进一步优化生成效率,InfinityStar 引入了创新的知识继承策略。通过以预训练的变分自编码器(VAE)作为基础模型,新框架能够快速学习并掌握高质量的视频特征表示,大幅缩短训练周期并降低计算资源消耗。这一策略的成功应用,使得模型在保持卓越视觉表现的同时,实现了令人惊叹的生成速度。
实验结果表明,InfinityStar 框架在视频生成任务中展现出卓越的综合性能。无论是视觉质量还是生成效率,该框架均达到了业界领先水平,为用户提供了兼具品质与效率的解决方案。这一突破性技术的推出,不仅标志着视觉生成领域迈入新纪元,更为未来长视频生成技术发展和多样化视觉任务处理奠定了坚实基础。
github:https://github.com/FoundationVision/InfinityStar

划重点:
– 🚀 InfinityStar 框架将720p 视频生成时间缩短至58秒,显著提高效率
– 🏗️ 采用时空金字塔模型,实现外观与运动信息的有效解耦,提高生成质量
– 📈 引入知识继承策略,利用预训练模型加速学习,降低计算成本
