阿里Qwen新模型三秒克隆声音支持十种语言

2025-12-24 10:45:46 AI动态 1 次阅读

近日，阿里巴巴云计算的 Qwen 团队重磅发布了两款创新性人工智能模型，专注于通过文本指令实现声音的生成与克隆。这两款模型不仅代表了语音合成技术的最新突破，更将为我们带来前所未有的声音定制体验。

Qwen3-TTS-VD-Flash 模型是此次发布的亮点之一，它赋予用户前所未有的声音创作自由。用户可以根据自己的需求，对声音的每一个细节进行精准定义，无论是情感表达还是说话节奏，都能通过文字描述实现完美呈现。想象一下，只需输入”一位充满活力的中年男性，拥有洪亮的男中音，以快速语速进行广告解说，音调变化夸张且充满销售魅力”，该模型就能迅速生成符合要求的声音效果。据制造商透露，该模型在性能上已超越OpenAI最新推出的GPT-4o mini-tts API，展现出卓越的技术实力。

另一款引人注目的模型是Qwen3-TTS-VC-Flash，它能够以惊人的效率实现声音克隆。仅需三秒钟的音频样本，该模型就能精准复制目标声音，并支持十种语言的复现。Qwen团队自豪地表示，该模型的错误率低于市面上其他同类产品，如Elevenlabs或MiniMax，证明了其技术的领先地位。不仅如此，这款AI还能处理复杂的文本内容，模仿各种动物声音，甚至从已有录音中提取并转化声音特征。

两款模型均通过阿里巴巴云的API平台向公众开放，用户可以通过这一渠道体验强大的语音合成功能。同时，Hugging Face平台上也提供了模型设计和克隆声音的互动演示，让更多人能够直观感受这些创新技术的魅力。划重点：🌟 新款Qwen模型支持通过文本描述生成和克隆声音；🎤 Qwen3-TTS-VC-Flash可在三秒内复制声音，支持十种语言；🚀 模型表现优于竞争对手，适用于处理复杂文本及声音模仿。这些突破性技术不仅将重新定义语音合成领域，更将为各行各业带来革命性的应用可能。