谷歌Gemini Omni多模态AI模型开启视频创作新纪元

2026-05-21 02:35:36 互联网 2 次阅读

微新创想：谷歌在Google I/O 2026上正式发布了Gemini Omni模型，这一全新AI模型具备跨模态处理能力，能够接受文本、图像、音频和视频等多种形式的输入，并实现内容的生成与编辑。这标志着谷歌在多模态AI领域迈出了重要一步，为用户提供更加灵活和强大的创作工具。

在音频处理方面，Gemini Omni目前仅支持语音输入，但谷歌表示将很快扩展更多音频类型的支持。这一功能的逐步完善，将进一步提升模型在多媒体内容创作中的适用性与表现力。

Gemini Omni的首发产品Gemini Omni Flash已在Gemini应用中上线，用户可以通过该应用体验模型的初步功能。未来，谷歌计划将该模型的API向企业客户开放，使其能够更广泛地应用于商业场景和专业创作。

Gemini Omni的核心优势在于其强大的视频编辑能力。用户只需通过自然语言指令，即可对生成的视频内容进行持续的修改与优化。例如，可以添加或删除特定对象、切换摄像机视角、调整环境与风格等。这种高度互动的编辑方式，使得视频创作变得更加直观和高效。

得益于Gemini Omni对物理规律的深入理解，以及对历史、科学和文化知识的整合，生成的视频在角色设定、场景构建和视觉逻辑方面表现出高度的连贯性。模型甚至能够推测视频后续可能的情节发展，为用户提供更具创意和逻辑性的内容。

此外，用户还可以创建个人数字分身，并将其自然地植入到视频中。这一功能不仅增强了视频的个性化表达，也为虚拟形象的应用提供了新的可能性。

在安全性方面，谷歌同样做出了重要布局。所有通过Gemini Omni生成的视频都会自动嵌入SynthID数字水印，确保内容的原创性和可追溯性。用户可以通过Google搜索或Chrome浏览器验证水印，从而识别视频是否由AI生成。

Gemini Omni Flash目前面向拥有Google AI Plus、Pro和Ultra订阅的用户，在Gemini应用和Google Flow中推出。同时，该产品也向希望混剪YouTube Shorts的用户以及YouTube Create应用用户免费开放，让更多创作者能够轻松体验其功能。

谷歌DeepMind负责人哈萨比斯表示，Gemini Omni的推出不仅提升了AI在内容创作中的能力，也在推动AI从执行单一任务向通用人工智能（AGI）的方向发展。这一趋势预示着未来AI将具备更广泛的应用场景和更强的自主性。

2026年05月21日

03:06