阿里百聆语音模型升级:三秒录音多语言情感切换技术开源

阿里巴巴通义大模型近日正式宣布其“百聆”系列语音模型的重大升级,并惊喜推出开源版本。此次升级的两款核心语音模型——Fun-CosyVoice3与Fun-ASR,实现了令人瞩目的技术突破,能够在用户仅需三秒录音后,即可实现无缝切换至多达九种语言和十八种方言,覆盖普通话、粤语、日语、英语等主流语种,更可模拟多种情感表达,如开心、愤怒等复杂情绪,为语音交互注入了前所未有的生动性。

在此次升级中,Fun-CosyVoice3模型的表现尤为亮眼。其首包延迟大幅降低50%,中英混说的准确率得到了显著提升。更值得一提的是,该模型的音色克隆能力得到了质的飞跃。用户只需提供一段三秒以上的录音样本,便能精准复刻相应音色,并合成全新的语音内容。这一功能的推出,将极大推动实时语音助手、直播配音、无障碍阅读等场景的智能化进程,让语音交互更加高效便捷。

Fun-ASR模型同样实现了跨越式的进步。在噪声环境下,其准确率高达93%,表现堪称卓越。该模型不仅支持歌词和说唱的精准识别,更能实现多语言自由混说,全面覆盖多种中文方言与口音。为了进一步提升用户体验,流式识别的首字延迟已降低至160毫秒,显著增强了语音交互的流畅度与响应速度。

阿里百聆语音模型升级:三秒录音多语言情感切换技术开源插图1

为了促进技术的广泛应用,这两款模型均支持本地部署与二次开发。开发者可以根据自身需求进行定制化调整,充分释放语音技术的无限潜能。开源地址现已公布,用户可前往GitHub平台(https://github.com/FunAudioLLM/CosyVoice)体验和使用这两款强大的语音模型,共同推动语音技术在各个领域的创新应用。

划重点:
🌐 ** 多语言支持 **:三秒录音即可实现9种语言和18种方言的切换,打破语言障碍,畅享全球交流。
⚙️ ** 技术升级 **:延迟降低50%,准确率提升,使语音交互更加流畅自然,体验更上一层楼。
📦 ** 开源开放 **:模型支持本地部署和二次开发,便于个性化应用,助力开发者打造专属语音解决方案。

最新快讯

2025年12月26日

09:18
近日,一位来自吉林的62岁女子在社交平台上分享了自己怀孕6个月的消息,并坚持每日更新产检日记,用细腻的文字和珍贵的照片记录着与新生命的每一次相遇。她动情地表示:"这个孩子是我失去的儿子的归来",这番深情告白迅速引爆网络,引发了无数网友的关注和热议。 据了解,这位勇敢的母亲在2025年正月经历了丧子之痛,独子的突然离世让她陷入了难以言喻的悲痛之中。然而,令人惊...
09:18
近日,江西景德镇一位平凡的小摊主李俊永,因一段短视频在网络上迅速走红,被网友亲切称为“鸡排哥”。这位48岁的摊主,凭借六元一份的亲民鸡排和真诚的服务态度,一夜之间成为了全国瞩目的焦点。 随着流量的退潮,李俊永也面临着一些挑战。有人冒充他家人开账号,有人炒排队号高价售卖,甚至在他巡炸时,直播团队堵满摊前,连递个鸡排都要穿过三台云台机。面对这些纷扰,李俊永始...
09:18
山东聊城一家服装店以其颠覆传统的经营模式,在社交平台上掀起了一股现象级热潮。这家店铺大胆创新,允许顾客骑着自行车或电动车直接进入店内挑选心仪的商品,这一别出心裁的举措迅速吸引了大量目光,让店铺意外走红,成为年轻人争相打卡的新晋网红地。 据店主王先生回忆,这一模式的诞生纯属偶然。起初,一位顾客骑着电动车进店挑选衣服,王先生非但没有阻止,反而让店员上前提供热...
09:05
2023年12月25日,国家电投集团在北京正式发布全球首套超高温热泵储能技术——“储诺”,标志着我国在新能源储能领域取得重大突破。这项创新技术突破了传统储能对地理条件的限制,实现了在平原电站和山地产业园等不同场景下的灵活部署,具有广泛的应用前景。 作为卡诺电池的一种先进形式,“储诺”技术通过热泵与热机循环系统,实现了电能与热能之间的高效双向转换。这一过程不仅...
09:05
2025年12月26日,达意隆集团正式发布重要公告,宣布因全资子公司天津宝隆代工订单量出现显著下滑,公司计划暂时关停该生产基地的生产线。这一决策主要源于下游核心客户在战略布局上的重大调整,导致天津宝隆的盈利能力持续承压。为有效控制运营成本并提升整体经营效率,达意隆集团经过审慎评估,决定全面暂停天津宝隆的生产活动。未来,公司将密切关注市场动态,并计划通过优化经...
09:05
美科正式宣布旗下AF 85mm f/1.8 SE II EF卡口镜头将于12月27日正式发售,为摄影爱好者带来更出色的拍摄体验。此次发布会还同步推出了两款创新转接环EFTR-A与EFTR-B,专为R卡口设计,能够无缝适配各类相机系统,满足不同场景的拍摄需求。特别值得一提的是EFTR-A转接环,其配备的可控环设计显著提升了操作便捷性,让摄影师在拍摄过程中能够更...
09:05
科技媒体Sakhtafzarmag近日独家披露,华硕正式宣布将在2026年第二季度正式进军内存模组制造领域。这一战略布局的核心目标,是为其备受关注的TUF战斧系列和ROG玩家国度产品线提供更为稳定可靠的内存供应,从而有效应对当前全球范围内持续存在的DRAM(动态随机存取存储器)短缺及价格波动问题。 通过建立自产内存模组的垂直整合能力,华硕将能够从根本上保障其...
09:05
2026年1月1日起,德方纳米将正式启动为期一个月的年度设备检修计划,旨在全面提升设备运行效率与生产稳定性。此次检修工作经过周密部署,预计不会对公司2026年度的整体经营业绩产生重大不利影响,德方纳米将确保检修期间各项业务平稳过渡。 与此同时,天威视讯控股子公司深圳市天擎数字有限责任公司计划以604.30万元的价格,将相关项目资产转让给深圳广电数字科技有...
09:05
2025年12月26日,中信建投最新研报揭示了一个重要趋势:存储材料价格的持续上涨已开始显著影响消费电子产品的终端定价。近期市场观察显示,小米旗下多款平板电脑产品已将售价上调100至200元,这一策略调整并非孤例,部分主流PC厂商也相继跟进,或通过直接提价,或以缩减配置等方式变相增加产品成本。这一系列价格策略的变动,清晰地反映出存储成本压力正从供应链上游逐步...
09:05
OpenAI 正在酝酿一场规模空前的融资行动,据 AIbase 最新披露的信息显示,该公司计划筹集高达 1000 亿美元的巨额资金。这一雄心勃勃的融资目标背后,是 OpenAI 对未来技术突破和市场扩张的坚定信念。值得注意的是,尽管当前人工智能领域整体热度有所降温,但 OpenAI 仍展现出强大的融资吸引力。据内部知情人士透露,若此次融资能够顺利达成,Ope...
09:05
在人工智能生成内容(AIGC)从自由创作迈向精准控制的转型关键期,小红书AIGC团队今日正式开源其突破性布局可控图像生成框架——InstanceAssemble。这一专为高密度、多对象、复杂空间关系设计的Layout-to-Image任务而生的框架,在仅增加0.84%极低参数增量的同时,实现了生成图像空间对齐精度与语义一致性的显著提升,为电商、设计、游戏等高...
09:05
在人工智能领域竞争日趋激烈的今天,顶尖科技公司的实习岗位已经远远超越了传统意义上的"职场初体验",而是演变成了一场声势浩大的高规格人才争夺战。最新市场数据显示,AI领域的短期入门岗位薪酬正经历爆发式增长,其待遇水平之高足以让许多其他行业的资深全职员工感到震惊。 为了吸引下一代顶尖AI研究人才,各大科技巨头纷纷打破常规,大幅提高薪酬标准。OpenAI为其半年的...