【AIbase 报道】语音生成领域的创新先锋 Fish Audio 宣布正式推出升级版 S1 语音克隆模型,在情感表现力与拟真度方面取得革命性突破。新版模型能够生成兼具丰富情绪、精准节奏与自然语气的真人级声音,几乎完美捕捉人类说话时的所有细微特征。
据悉,用户仅需提供约 10 秒的语音样本,S1 即可精准克隆任意人声,并完整保留原声的口音、语调与节奏,还原个人的说话习惯与情感特征,生成效果与真人无异。相较于国际知名产品 ElevenLabs,Fish Audio 的语音克隆服务价格低约六倍,在语音生成成本与性能平衡上展现出显著优势。
与此同时,Fish Audio S1 API 也已同步上线,大幅提升了实时语音生成体验。其首帧延迟(TTFT)低于 500 毫秒,确保一句话不到半秒即可开始播放;同时支持输入与输出的流式传输,实现边接收文字边即时朗读的自然交互,并可无限克隆不同人声、自由切换使用。
业内专家认为,Fish Audio S1 的升级标志着语音克隆技术正从“可用”迈向“可感”,其高保真、低延迟的特性将加速 AI 语音在虚拟人、智能助理、内容创作及配音等领域的广泛落地。这一突破不仅为语音生成技术开辟了新高度,也为相关应用场景带来了无限可能。
