微新创想:谷歌在Google I/O 2026上正式发布了Gemini Omni模型,这一全新AI模型具备跨模态处理能力,能够接受文本、图像、音频和视频等多种形式的输入,并实现内容的生成与编辑。这标志着谷歌在多模态AI领域迈出了重要一步,为用户提供更加灵活和强大的创作工具。
在音频处理方面,Gemini Omni目前仅支持语音输入,但谷歌表示将很快扩展更多音频类型的支持。这一功能的逐步完善,将进一步提升模型在多媒体内容创作中的适用性与表现力。
Gemini Omni的首发产品Gemini Omni Flash已在Gemini应用中上线,用户可以通过该应用体验模型的初步功能。未来,谷歌计划将该模型的API向企业客户开放,使其能够更广泛地应用于商业场景和专业创作。
Gemini Omni的核心优势在于其强大的视频编辑能力。用户只需通过自然语言指令,即可对生成的视频内容进行持续的修改与优化。例如,可以添加或删除特定对象、切换摄像机视角、调整环境与风格等。这种高度互动的编辑方式,使得视频创作变得更加直观和高效。
得益于Gemini Omni对物理规律的深入理解,以及对历史、科学和文化知识的整合,生成的视频在角色设定、场景构建和视觉逻辑方面表现出高度的连贯性。模型甚至能够推测视频后续可能的情节发展,为用户提供更具创意和逻辑性的内容。
此外,用户还可以创建个人数字分身,并将其自然地植入到视频中。这一功能不仅增强了视频的个性化表达,也为虚拟形象的应用提供了新的可能性。
在安全性方面,谷歌同样做出了重要布局。所有通过Gemini Omni生成的视频都会自动嵌入SynthID数字水印,确保内容的原创性和可追溯性。用户可以通过Google搜索或Chrome浏览器验证水印,从而识别视频是否由AI生成。
Gemini Omni Flash目前面向拥有Google AI Plus、Pro和Ultra订阅的用户,在Gemini应用和Google Flow中推出。同时,该产品也向希望混剪YouTube Shorts的用户以及YouTube Create应用用户免费开放,让更多创作者能够轻松体验其功能。
谷歌DeepMind负责人哈萨比斯表示,Gemini Omni的推出不仅提升了AI在内容创作中的能力,也在推动AI从执行单一任务向通用人工智能(AGI)的方向发展。这一趋势预示着未来AI将具备更广泛的应用场景和更强的自主性。
