谷歌Veo3.1视频生成模型升级音频编辑能力提升

2025-10-16 11:21:05 AI动态 34 次阅读

谷歌近期正式发布了视频生成模型Veo3.1的全新版本，这是继今年5月推出Veo3后的一次重要升级。新版本在多个关键维度上实现了显著突破，包括音频输出质量、编辑控制精度以及图像转视频的渲染效果，能够生成更加逼真的视频片段，并更精准地响应用户指令。

在功能层面，Veo3.1引入了向视频中添加新对象的能力，系统会智能地将新增元素无缝融入原有画面风格，确保视觉效果的统一性。此外，谷歌还宣布将在未来的视频编辑工具Flow中支持移除现有对象的功能，这将进一步拓展编辑的灵活性。Veo3此前已具备丰富的编辑特性，如通过参考图像驱动角色生成、AI自动填充首尾帧生成中间内容，以及基于末尾帧扩展视频长度等。而Veo3.1的核心升级在于为所有这些编辑功能集成了音频生成能力，使得输出视频不仅画面流畅，还具备声音元素，大幅提升了内容的完整性和沉浸感。

从部署渠道来看，Veo3.1将通过多个平台向用户开放。谷歌正在将该模型集成到视频编辑器Flow、Gemini应用程序，以及面向开发者的Vertex AI和Gemini API接口中。值得注意的是，自Flow在5月上线以来，用户已在该平台上创作了超过2.75亿个视频，足见其受欢迎程度。此次更新体现了AI视频生成技术在两个方向上的持续演进：一方面是生成质量的不断提升，包括更真实的画面效果和更准确的提示词理解；另一方面是编辑能力的精细化，从整体生成到局部修改、对象增删等精细操作。音频生成的加入更是填补了此前AI视频工具普遍缺乏声音元素的短板。

然而，从技术成熟度来看，AI视频生成仍处于快速迭代阶段。视频的连贯性、物理规律的准确性、复杂场景的处理能力等方面，各家模型都在持续改进中。Veo3.1的实际表现，包括音频与画面的同步质量、对象融合的自然度等细节，还需要通过用户实际使用来验证。尽管如此，Veo3.1的发布无疑为AI视频生成领域带来了新的可能性，未来有望在更多场景中发挥重要作用。