字节跳动智能创作团队携手清华大学,共同研发了一款名为 HuMo 的开源框架,为人体视频生成(HCVG)领域注入了新的活力。该框架的核心亮点在于其卓越的多模态输入处理能力,能够同时融合文本、图像和音频三种信息源,协同生成令人惊叹的高质量视频内容。HuMo 的命名 “Human-Modal” 精妙地诠释了其以人为中心、聚焦人类活动的研发理念。
HuMo 的成功突破源于两大关键创新:一是构建了高质量的数据集,二是首创渐进式训练方法。这种独特的训练策略使 HuMo 在各项子任务上的表现均超越了现有的专业化方法。通过该框架,用户可以生成清晰度高达480P和720P的视频,最长支持97帧,并以25帧每秒的流畅速率输出,实现高度可控的人物视频生成效果。
HuMo 的核心优势集中体现在三个方面:创新的数据处理流程、灵活的推理策略以及渐进式的多模态训练方式。这些技术的完美结合,不仅显著提升了生成视频的质量,还大幅优化了处理速度,使 HuMo 在实际应用场景中展现出卓越性能。对于广大开发者和研究人员而言,HuMo 不仅仅是一款先进的工具,更是一种高度灵活的解决方案,能够满足不同场景下的多样化需求。
该项目采用开源模式,其代码库的公开共享,将吸引更多研究者参与到多模态视频生成技术的前沿探索中,共同推动这一领域的持续发展。更多技术细节和研究成果,可参考论文原文:https://arxiv.org/pdf/2509.08519