谷歌近期正式发布了视频生成模型Veo3.1的全新版本,这是继今年5月推出Veo3后的一次重要升级。新版本在多个关键维度上实现了显著突破,包括音频输出质量、编辑控制精度以及图像转视频的渲染效果,能够生成更加逼真的视频片段,并更精准地响应用户指令。
在功能层面,Veo3.1引入了向视频中添加新对象的能力,系统会智能地将新增元素无缝融入原有画面风格,确保视觉效果的统一性。此外,谷歌还宣布将在未来的视频编辑工具Flow中支持移除现有对象的功能,这将进一步拓展编辑的灵活性。Veo3此前已具备丰富的编辑特性,如通过参考图像驱动角色生成、AI自动填充首尾帧生成中间内容,以及基于末尾帧扩展视频长度等。而Veo3.1的核心升级在于为所有这些编辑功能集成了音频生成能力,使得输出视频不仅画面流畅,还具备声音元素,大幅提升了内容的完整性和沉浸感。
从部署渠道来看,Veo3.1将通过多个平台向用户开放。谷歌正在将该模型集成到视频编辑器Flow、Gemini应用程序,以及面向开发者的Vertex AI和Gemini API接口中。值得注意的是,自Flow在5月上线以来,用户已在该平台上创作了超过2.75亿个视频,足见其受欢迎程度。此次更新体现了AI视频生成技术在两个方向上的持续演进:一方面是生成质量的不断提升,包括更真实的画面效果和更准确的提示词理解;另一方面是编辑能力的精细化,从整体生成到局部修改、对象增删等精细操作。音频生成的加入更是填补了此前AI视频工具普遍缺乏声音元素的短板。

然而,从技术成熟度来看,AI视频生成仍处于快速迭代阶段。视频的连贯性、物理规律的准确性、复杂场景的处理能力等方面,各家模型都在持续改进中。Veo3.1的实际表现,包括音频与画面的同步质量、对象融合的自然度等细节,还需要通过用户实际使用来验证。尽管如此,Veo3.1的发布无疑为AI视频生成领域带来了新的可能性,未来有望在更多场景中发挥重要作用。
