阿里千问语音新模型发布动物也能开口说人话

2025-12-24 18:02:14 互联网 2 次阅读

阿里于12月24日发布语音模型家族Qwen3-TTS的重大升级，正式推出音色创造Qwen3-TTS-VD与音色克隆Qwen3-TTS-VC两款创新模型。在生成效果上，新模型的表现已显著超越GPT-4o，展现出强大的技术优势。

Qwen3-TTS新模型实现了DIY声音设计和像素级音色模仿的突破性进展，甚至能够让动物原生”开口说人话”。其音色自然流畅、效果稳定可靠、生成效率极高，将极大加速语音大模型在有声小说、AI漫剧、影视配音等领域的实际应用。

音色创造模型支持通过自然语言描述生成定制化的音色形象，具有极强的可控生成能力。在指令遵循评测InstructTTS-Eval中，Qwen3-TTS的综合表现显著优于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同类模型。特别是在强调表达一致性与沉浸感的角色扮演测试中，模型整体效果更超过Gemini-2.5-pro-preview-tts。

音色克隆模型则专注于音色模仿技术，仅需3秒的语音样本，即可精准复刻原始声线。在MiniMax TTS Multilingual Test Set测试集中，Qwen3-TTS-VC展现出在多语言语音准确性与稳定性方面的显著优势。其平均词错误率（WER）指标表现突出，整体结果全面优于MiniMax、ElevenLabs以及GPT-4o-Audio-Preview。

此外，Qwen3-TTS-VC还可自动生成英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等9种语音。值得注意的是，它连动物音色也能完美复刻，只需录入家中宠物的原始声音，就能用模型让它开口说人话。

目前，两款模型均在阿里云百炼平台上架Flash版本API，响应速度极快，可完全满足工业级语音合成需求。千问语音生成模型系列Qwen3-TTS仍在不断升级，目前可支持50种音色，10大主流语言和闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等8大方言，能够真实还原地方口音特色与语言神韵。

2025年12月24日

20:28

阿里千问语音新模型发布动物也能开口说人话

最新快讯

2025年12月24日

长春高新金赛药业创新药GenSci145片临床试验申请获国家药监局受理

深圳发布低空经济生物医药产业商业秘密保护指引

英伟达中止英特尔18A制程测试进展引关注

宁德时代宜春锂矿预计春节前后复产

国家算力互联网四川枢纽节点正式上线打造西部算力调度中枢

神思电子中标济南4.91亿项目推动低空经济与城市交通数字化转型

中国信通院：算力互联网分三步走构建统一市场体系

海奥斯拟北交所IPO备案获受理胶原蛋白行业新势力崛起

格松科技完成亿元级融资

白鸽在线通过港交所上市聆讯拟主板上市保险科技领域领航者

招商证券：农林牧渔板块2026年聚焦周期与成长

会通股份拟收购意大利OMIKRON 70%股权

阿里千问语音新模型发布 动物也能开口说人话

最新快讯

2025年12月24日

阿里千问语音新模型发布动物也能开口说人话