
微新创想:谷歌近日在Gemini3.1系列中正式推出全新文字转语音模型Gemini-TTS 官方给出的定位直接而自信 说是至今最富表现力的文本转语音解决方案 这款模型最核心的突破在于把语音的控制权真正交给了开发者
以往的TTS产品生成出来的声音往往千篇一律 语气平 缺乏节奏感 情绪也显得单薄 而Gemini-TTS则支持通过提示词直接调控语音的情感 节奏和风格 旁白需要低沉庄重 对话需要轻松自然 停顿落在哪里 情绪如何起伏 都可以用语言描述来精确控制
听感上的自然度和细腻程度 比过去的同类产品上了一个台阶 多语言支持方面 Gemini-TTS覆盖约70种语言 中文普通话 英语 西班牙语 日语等主流语种均在列 更省心的是 模型可以自动识别输入文本的语种 无需开发者手动标注 直接生成对应语言的语音输出

对于需要服务全球用户的企业来说 这意味着一套API就能搞定多语种内容的语音化需求 有声读物 播客 客服机器人 教育应用都是直接受益的场景 谷歌还特别强调了Gemini-TTS与同系列音频模型的协同能力
在实时对话 语音翻译和多模态交互场景中 系统可以在保持低延迟的同时 通过文本提示和音频标记对语音输出进行精细调控 让AI在电话 会议 导航等实际使用场景中听起来更接近真实的人类交流
语音 正在成为AI下一个主战场 谷歌这次出手 来势不小
