谷歌最新推出的旗舰级AI视频生成模型Veo3,现已通过Gemini API正式向开发者开放,为文本转视频功能注入强大动力,并支持同步音频生成。这一创新举措标志着AI视频制作技术迈入全新发展阶段,同时也带来了更高的成本考量。Veo3作为谷歌首款能够通过单一文本提示生成高分辨率视频,并同步创作对话、音乐及音效的模型,展现了惊人的技术实力。目前,Gemini API主要提供文本转视频功能,但谷歌承诺,图像转视频功能也将在Gemini应用中陆续推出。
对于希望将先进视频生成技术集成到自身应用或构建可投入生产原型的开发者而言,此次API集成无疑提供了强大的技术支持。Google AI Studio特别为开发者准备了SDK模板和入门应用,旨在帮助他们快速掌握Veo3的使用方法。值得注意的是,访问该API需要已启用计费功能的活跃Google Cloud项目。谷歌透露,Veo3在Gemini应用、Flow和Vertex AI中已被成功使用数百万次,显示出其广泛的适用性和强大的市场潜力。
然而,Veo3的高昂价格使其在AI视频生成领域成为相对昂贵的选项之一。通过Gemini API访问Veo3仅限于Google Cloud付费套餐用户。以720p、24fps视频(含16:9格式音频)为例,其定价为每秒0.75美元,比不含音频的Veo2贵了整整25美分。这意味着,制作一段八秒的视频需要6美元,而五分钟的视频则高达225美元。考虑到通常需要多次尝试才能达到理想效果,实际成本可能会迅速攀升。例如,如果需要十倍的素材量才能制作出五分钟的可用视频,总成本可能飙升至惊人的2,250美元。
尽管成本较高,但谷歌可能认为在特定用例中,Veo3仍比传统视频制作更具成本效益。为此,谷歌还特别推出了”Veo3Fast”模式,该模式以更快的速度和更低的价格运行,但目前尚未在API中提供。目前,Veo3的应用主要集中在专业领域。例如,Cartwheel公司利用Veo3将2D视频成功转换为逼真的3D角色动画,并将其生成的动作精准映射到客户项目的装配模型上。游戏工作室Volley也借助Veo3为其角色扮演游戏《Wit’s End》制作过场动画,使开发者能够快速尝试新的故事创意和视觉效果。这些案例充分表明,谷歌目前更侧重于专业级应用场景,尽管不排除有其他公司在幕后使用Veo3但尚未公开。