阿里开源Qwen3-TTS:97ms超低延迟语音合成 3秒克隆音色彻底颠覆实时AI语音

阿里通义千问团队昨晚震撼发布了Qwen3-TTS系列语音生成模型家族的开源成果,这一突破性进展迅速点燃了开源社区的热情,被业界誉为语音合成技术的里程碑式创新。该系列模型采用先进的端到端架构,实现了秒级音色克隆、自然语言驱动的音色设计以及实时流式音频输出,为实时语音应用扫清了技术障碍。

Dual-Track双轨架构突破延迟极限Qwen3-TTS的核心突破在于其独创的Dual-Track双轨混合流式生成机制,通过整合离散多码本语言模型,实现了真正的端到端语音建模,彻底摆脱了传统级联架构(如LM+DiT)造成的性能瓶颈。实测数据显示,该模型的端到端延迟低至惊人的97毫秒,只需输入单个汉字即可触发首包音频输出。这种极致的响应速度,使其成为直播互动、实时翻译、AI智能客服等时延敏感场景的理想选择。

3秒极速克隆 + 跨语言方言无损迁移语音克隆能力令人叹为观止:仅需3秒钟的参考音频,即可完成高保真度的零样本音色复刻。更令人惊叹的是,克隆后的音色能够实现跨语种无缝迁移,中文音色可直接用于演绎英语、日语、韩语、德语、法语、俄语、西班牙语、葡萄牙语、意大利语等10种主流语言,且原音色特征保持完整。此外,模型还能自然输出四川话、北京话等多种中文方言,口音和神韵高度还原,为多语言内容创作和本地化应用开辟了无限可能。

阿里开源Qwen3-TTS:97ms超低延迟语音合成 3秒克隆音色彻底颠覆实时AI语音插图1

自然语言指令”凭空”创造专属音色除了克隆功能,Qwen3-TTS还具备强大的Voice Design音色设计能力。用户只需通过自然语言指令,即可自定义理想的声音效果,例如”用温柔鼓励的成熟女声讲述故事”或”高亢兴奋的年轻男性解说游戏”,模型将自动调整语调、情感和节奏,生成高度个性化的语音表达。这种”所想即所听”的控制能力,在有声书制作领域展现出巨大价值——单人即可分饰多角,完美驾驭情绪起伏和方言切换,显著提升沉浸感和生产效率。

1.7B与0.6B双参数版本灵活适配不同需求Qwen3-TTS家族提供两种参数规模的选择:- 1.7B模型:性能卓越,控制能力突出,特别适合对音质和表现力要求严苛的云端应用场景;- 0.6B模型:在保持出色合成质量的同时,实现了更优的推理效率和更低的资源占用,完美适配边缘设备或高并发部署需求。官方已将完整系列(包括Base、VoiceDesign、CustomVoice等)全面开源至GitHub和Hugging Face平台,支持全参数微调,开发者可轻松打造品牌专属语音形象。

随着Qwen3-TTS的开源,实时化、个性化、多语言语音AI的门槛被大幅降低。无论是内容创作者、技术开发者还是企业级应用开发者,都将迎来语音交互技术的全新革命浪潮。项目地址:https://github.com/QwenLM/Qwen3-TTS

最新快讯

2026年01月23日

16:59
长期以来,尽管相机为机器装上了“眼睛”,但如何让它们像人类一样理解这个动态的世界——不仅看清当下,还能感知过去并预见未来——一直是计算机视觉领域的终极难题。就在今天,Google DeepMind揭晓了一项具有里程碑意义的研究成果:D4RT (Dynamic4D Reconstruction and Tracking)。这是一个全新的统一 AI 模型,它通过...
16:57
2026年1月,中导半导体宣布完成卓源亚洲天使轮投资。该公司总部位于中国,专注极高精度光掩模基板研发与加工,主要产品涵盖半导体及显示用石英掩膜基板,提供纳米级光学技术解决方案。其加工能力达纳米级粗糙度、亚微米级平面度及0级光洁度。本轮融资将用于提升纳米级光学器件量产能力及技术研发。
16:57
1月23日,中来股份在互动平台表示,光伏应用正从地面常规场景加速向太空等多元化场景延伸。公司已启动适配不同极端环境的光伏产品自主研发及联合开发,并同步推进与场景应用端的合作。此举旨在响应行业技术升级与空间能源需求增长趋势,强化高可靠性、轻量化、抗辐照等特种性能研发。目前相关技术验证与合作落地正在有序推进中。
16:57
2026年1月23日,北京中茵微电子宣布完成C轮融资。本轮融资由亦庄国投、京投公司联合领投,深创投、基石创投、洪泰基金、卓源亚洲、领泓资本、成都高发跟投。老股东卓源亚洲连续三轮追投。中茵微电子专注硬核接口IP自主研发、先进制程IC设计及Chiplet架构研发,面向高性能计算与网络通信领域,提供高端IP、SoC定制及Chiplet先进封装产品。本轮融资将加速...
16:57
2026年1月23日,特灵科技旗下品牌特灵(Trane®)宣布推出专为亚太区数据中心设计的DCDA系列冷却液分配单元(CDU)。该产品是特灵首款面向亚太市场需求自主研发的数据中心液冷解决方案,具备高系统灵活性、卓越能效和强集成能力。DCDA系列旨在应对高密度计算带来的散热挑战,通过高效、可靠、绿色可持续的技术支持,助力区域数据中心实现节能降耗与稳定运行。
16:57
2026年春运火车票已全面开售。国铁12306 App购票页面新增“雪”“宠”“静”“铺”“兑”等标识车次,分别对应滑雪用具携带、宠物同车托运、静音车厢、在线自主选铺及积分兑换服务。其中,“雪”字列车允许携带长宽高之和130–200厘米雪具;“宠”字列车支持托运2只符合健康与体型要求的猫犬;“静”字列车全程降低声源干扰;“铺”字列车提供普速及动车组卧铺在线...
16:57
2026年1月23日,知名运动品牌安德玛就网传7200万条客户记录泄露事件回应称,已展开调查。据外媒报道,一名恶意行为者在黑客论坛发布大量据称为安德玛的客户数据,涵盖姓名、邮箱、出生日期等信息,并涉及部分员工邮箱。安德玛表示,目前无证据显示官网、支付系统或密码存储系统受到影响。公司强调,仅有极小比例客户可能存在敏感个人信息泄露风险,具体细节仍在进一步核查中...
16:57
1月23日,赛科龙正式发布复古旅行家RT250E摩托车,售价14999元起。该车采用矩形大灯、游艇尾翼及棕色双人坐垫等复古设计,提供四款配色,车身尺寸2010×770×1145mm,轴距1410mm。搭载XQ310单缸水冷四冲程发动机,最大功率19.5kW,峰值扭矩24.5N·m。首销用户可获赠500元尾箱+后货架,并享5年或5万公里延保。车型还支持哨兵模...
16:57
2026年1月,物理AI基础设施企业飞捷科思宣布完成近亿元Pre-A轮融资。本轮融资由经纬创投与东方富海联合领投,沐曦股份、驰星创投跟投,浪潮资本担任独家财务顾问。公司聚焦Physical AI核心技术,以自研物理仿真引擎为底座,支撑机器人研发、训练与部署全链条。融资将用于加速仿真平台迭代、核心团队扩充及行业场景落地。飞捷科思总部位于北京,致力于推动AI从...
16:57
2026年1月23日,奇瑞汽车宣布自即日起召回2025年4月1日至12月8日期间生产的部分奇瑞牌探索06和全新瑞虎7 1.6T车型,共计1108辆。本次召回因生产装配问题,部分车辆发动机ECU分支线束卡扣未按规范固定,可能导致线束磨损,极端情况下引发行驶中熄火,存在安全隐患。奇瑞将为受影响车辆免费检查并维修或更换线束,以消除风险。
16:56
2026年1月23日起,一汽丰田长春丰越分公司与广汽丰田汽车有限公司启动召回。前者召回2025年12月5日至2026年1月13日生产的RAV4荣放汽车10922辆;后者召回2025年12月11日至2026年1月12日生产的威兰达汽车5056辆。因多媒体屏系统控制程序缺陷,车辆启动时或出现黑屏且无法恢复,致除霜除雾功能失效,极端情况下影响驾驶视线。两家公司将...
16:56
2026年1月,一亩田集团与湖南九丰农业签署意向收购协议。湖南九丰农业是专注山茶油生产的全产业链企业,旗下拥有“柒湾”品牌,致力于绿色有机食用油研发与生产,推动油茶产业标准化发展,并助力乡村振兴。此次收购将强化一亩田在农业产业链的布局,覆盖从生产、流通到消费的全环节,进一步实现科技赋能农业的战略目标。交易具体细节尚未披露。