谷歌推出Gemini-TTS多语言语音模型支持70种语言精准控制情感与风格

2026-04-16 10:07:23 AI动态 4 次阅读

微新创想：谷歌近日在Gemini3.1系列中正式推出全新文字转语音模型Gemini-TTS 官方给出的定位直接而自信说是至今最富表现力的文本转语音解决方案这款模型最核心的突破在于把语音的控制权真正交给了开发者

以往的TTS产品生成出来的声音往往千篇一律语气平缺乏节奏感情绪也显得单薄而Gemini-TTS则支持通过提示词直接调控语音的情感节奏和风格旁白需要低沉庄重对话需要轻松自然停顿落在哪里情绪如何起伏都可以用语言描述来精确控制

听感上的自然度和细腻程度比过去的同类产品上了一个台阶多语言支持方面 Gemini-TTS覆盖约70种语言中文普通话英语西班牙语日语等主流语种均在列更省心的是模型可以自动识别输入文本的语种无需开发者手动标注直接生成对应语言的语音输出

对于需要服务全球用户的企业来说这意味着一套API就能搞定多语种内容的语音化需求有声读物播客客服机器人教育应用都是直接受益的场景谷歌还特别强调了Gemini-TTS与同系列音频模型的协同能力

在实时对话语音翻译和多模态交互场景中系统可以在保持低延迟的同时通过文本提示和音频标记对语音输出进行精细调控让AI在电话会议导航等实际使用场景中听起来更接近真实的人类交流

语音正在成为AI下一个主战场谷歌这次出手来势不小

2026年04月16日

12:11