
近日,阿里巴巴云计算的 Qwen 团队重磅发布了两款创新性人工智能模型,专注于通过文本指令实现声音的生成与克隆。这两款模型不仅代表了语音合成技术的最新突破,更将为我们带来前所未有的声音定制体验。
Qwen3-TTS-VD-Flash 模型是此次发布的亮点之一,它赋予用户前所未有的声音创作自由。用户可以根据自己的需求,对声音的每一个细节进行精准定义,无论是情感表达还是说话节奏,都能通过文字描述实现完美呈现。想象一下,只需输入”一位充满活力的中年男性,拥有洪亮的男中音,以快速语速进行广告解说,音调变化夸张且充满销售魅力”,该模型就能迅速生成符合要求的声音效果。据制造商透露,该模型在性能上已超越OpenAI最新推出的GPT-4o mini-tts API,展现出卓越的技术实力。
另一款引人注目的模型是Qwen3-TTS-VC-Flash,它能够以惊人的效率实现声音克隆。仅需三秒钟的音频样本,该模型就能精准复制目标声音,并支持十种语言的复现。Qwen团队自豪地表示,该模型的错误率低于市面上其他同类产品,如Elevenlabs或MiniMax,证明了其技术的领先地位。不仅如此,这款AI还能处理复杂的文本内容,模仿各种动物声音,甚至从已有录音中提取并转化声音特征。
两款模型均通过阿里巴巴云的API平台向公众开放,用户可以通过这一渠道体验强大的语音合成功能。同时,Hugging Face平台上也提供了模型设计和克隆声音的互动演示,让更多人能够直观感受这些创新技术的魅力。划重点:🌟 新款Qwen模型支持通过文本描述生成和克隆声音;🎤 Qwen3-TTS-VC-Flash可在三秒内复制声音,支持十种语言;🚀 模型表现优于竞争对手,适用于处理复杂文本及声音模仿。这些突破性技术不仅将重新定义语音合成领域,更将为各行各业带来革命性的应用可能。
