
12月16日,阿里巴巴重磅发布新一代万相2.6系列视频生成模型,凭借在专业影视制作和图像创作领域的全面升级,被业界誉为**”全球功能最全的视频生成模型”**。该模型已同步登陆阿里云百炼平台和万相官网,为创作者提供更强大的视觉创作支持。
万相2.6系列模型的最大创新在于国内首创的”角色扮演”功能,同时集成了音画同步、多镜头生成及声音驱动等先进技术。此次升级在画质清晰度、音效保真度和指令理解精准度方面实现显著突破,将单次视频生成时长提升至国内领先的15秒。该模型家族现已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10余种视觉创作能力。
1. 角色扮演功能(国内首创):万相2.6能够精准捕捉输入视频中的角色外观特征和声线特质,根据用户提示词生成单人、多人或人与物体互动的视频内容。在模型架构上,通义万相创新性地采用多模态联合建模技术,通过深度学习提取参考视频中的主体情绪、姿态动作、视觉元素以及音色、语速等声学特征,确保生成内容在视觉和听觉上实现全维度的高度一致性。

2. 专业级分镜控制:模型新增的分镜控制功能可将用户的简单文字提示转化为完整的多镜头脚本,自动生成包含多个镜头的叙事性视频。通过先进的语义理解能力,万相2.6能够构建具有完整故事线和叙事节奏的专业级多镜头段落,在镜头自然过渡的同时保持主体人物、场景布局和环境氛围的高度统一。
万相2.6的角色扮演和分镜控制功能为影视级创作场景提供了强大支持。例如,普通用户只需上传个人视频并输入科幻悬疑风格的提示词,该模型可在几分钟内完成分镜设计、角色演绎和画面配音等全流程工作,生成具有电影级运镜效果的专业短片,让每个人都能体验”圆电影主角梦”的乐趣。对于广告设计、短剧制作等商业场景,通过连续输入创作提示,模型即可生成完整叙事的短片作品,让创作民主化成为可能。
延续国内领先地位:阿里巴巴在今年9月率先在国内推出音画同步的视频生成模型万相2.5,在权威大模型评测集LMArena上,万相图生视频能力位居国内第一。此次2.6版本的发布进一步巩固了阿里巴巴在国内视频生成领域的领先优势。即日起,所有用户可直接访问万相官网体验最新功能,企业用户可通过阿里云百炼平台调用API接口。据悉,千问APP也将于近期上线该模型,并提供更多创新玩法。
