微新创想8月26日重磅报道,阿里云于今晚正式推出革命性多模态视频生成模型——通义万相Wan2.2-S2V,并宣布全面开源。这一突破性技术极大地革新了视频制作流程,用户只需提供一张静态图片和一段音频,即可生成面部表情自然生动、口型与音频高度同步、肢体动作流畅如丝的电影级数字人视频。模型支持分钟级长视频的稳定生成,不仅能够实现精准的口型同步,还能同步驱动手势、表情及姿态,呈现全方位的动态效果。
Wan2.2-S2V在训练过程中充分挖掘了跨域泛化能力,突破了传统模型的局限,能够自然驱动卡通人物、动物形象、二次元角色以及艺术风格化人像,不再局限于真人肖像的生成。无论是萌宠说话,还是动漫角色唱歌,该模型都能精准还原音画同步效果,为创意表达提供了无限可能。其提供的480P与720P两档分辨率选项,兼顾了制作效率与画面质量,特别适用于短视频创作、数字人应用以及轻量级影视制作等多元场景。
这一技术的发布标志着视频生成领域迈入全新阶段,通过简单的输入即可实现高质量视频内容的快速生成,极大地降低了内容创作的门槛。通义万相Wan2.2-S2V的开源举措,将进一步推动视频生成技术的普及与创新,为各行各业带来革命性的变革。无论是个人创作者还是企业用户,都能借助这一工具轻松实现创意变现,开启视频制作的新纪元。