微软近日开源了名为VibeVoice的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性,迅速在开发者社区引发关注,目前已在 GitHub 收获约27K Star。

作为开源研究框架,VibeVoice 采用 MIT 许可协议,支持本地部署,无需云端订阅费用,旨在推动语音合成领域的协作与创新。模型家族主要包括三个核心成员,各有侧重,共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。

image.png

VibeVoice-ASR-7B:长达60分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一的语音转文本模型,能够一次性处理长达60分钟的音频文件,直接输出结构化转录结果。输出不仅包含“谁在说话”(说话人识别)、“何时说话”(精确时间戳),还包括“说了什么”(详细内容),并支持自定义热词功能,可有效提升专有名词或技术术语的识别准确率。该模型支持超过50种语言,适用于长篇会议记录、播客转录等复杂场景。

社区开发者已基于该模型开发出实用工具,例如一款名为Vibing的语音输入法,支持 macOS 和 Windows 平台。用户反馈显示,其识别速度和准确率表现不错,可显著提升日常语音输入效率。

VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成

VibeVoice-TTS-1.5B 是专注于文本转语音的核心模型,能在单次生成中产出长达90分钟的连续音频,支持最多4个不同说话人进行自然对话模拟。模型生成的语音富有表现力,听起来自然流畅,能模拟真实的停顿、强调和情感转折,非常适合制作播客、长音频叙事、有声书或多角色对话内容。

相比许多传统 TTS 模型仅支持1-2个说话人,VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其底层采用连续语音分词器(声学与语义分词器)结合低帧率设计(7.5Hz),大幅提升了长序列处理的计算效率。

VibeVoice-Realtime-0.5B:约300毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 专注于实时场景,支持流式文本输入,首音频输出延迟约300毫秒,同时还能生成约10分钟的长篇语音。该模型特别适合需要即时回应的交互应用,如实时语音助手或直播配音场景。

此外,项目还引入了实验性说话人支持,包括多语言语音和多种英语风格变体,为开发者提供更多定制空间。

AIbase 点评:微软 VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛,还为本地部署提供了完整解决方案。项目曾因潜在误用风险短暂下架,后通过嵌入音频水印、可听免责声明等安全机制重新上线,体现了负责任 AI 开发的原则。目前,开发者可在 GitHub 仓库和 Hugging Face 获取模型权重,并通过 Colab 等平台快速试用。

随着开源社区的持续贡献(如针对 Apple Silicon 的优化 fork),VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。感兴趣的开发者可访问微软官方项目页进一步探索

项目地址:https://github.com/microsoft/VibeVoice

最新快讯

2026年03月30日

17:34
微新创想:2026年3月30日,生命科学集团赛多利斯宣布即将推出Eveo细胞疗法平台。该模块化系统集成了生产与质量控制(QC)功能,专为自体细胞疗法如CAR-T细胞治疗等应用而设计。Eveo平台的推出旨在突破当前细胞疗法规模化生产的结构性瓶颈,为行业带来更高效、更安全的解决方案。 微新创想:Eveo平台部署于全球多个符合GMP标准的生产基地,确保其在不同地区...
17:34
微新创想:近日,人工智能分子设计平台公司Stratum宣布完成200万美元种子轮融资。该公司总部位于美国,专注于开发基于AI的皮肤疗法设计平台。其技术通过分析皮肤健康指标与筛选生物活性化合物,辅助患者及皮肤科医生制定精准、屏障友好的治疗方案。 本轮融资将用于加速平台算法优化、临床验证及团队扩建。此举旨在应对传统皮肤疗法易破坏皮肤屏障的行业痛点,推动个性化皮肤...
17:34
微新创想:vivo将于3月30日19时在深圳举办新品发布会,正式推出X300 Ultra影像旗舰手机。此次发布的机型定位为“专业V单”,主打影像性能,配备强大的3+2蔡司大师镜头群,包括14mm超广角、35mm人文、85mm长焦以及两枚增距镜,为用户带来更丰富的拍摄体验。 X300 Ultra在屏幕方面同样表现出色,采用2K蔡司大师色彩直屏设计,色彩还原精准...
17:34
微新创想:2025年,赛力斯实现营业收入1648.88亿元,同比增长13.63%。这一增长成绩彰显了公司在市场中的竞争力和持续发展的能力。 微新创想:归母净利润达到59.57亿元,微增0.18%。尽管增幅不大,但公司整体盈利能力依然保持稳健,体现了良好的财务管理和运营效率。 微新创想:全年总销量为51.69万辆,其中新能源汽车销量47.23万辆,同比增长10...
17:34
2026年3月,法拉第未来(FF)迎来EAI机器人首个交付月。贾跃亭宣布已签订22台人形及仿生机器人销售合同,月底将超额完成20台出货目标。Aegis四足机器人预计下周通过FCC认证,助力首个交付季200台目标。公司将于4月1日早7:30召开2025全年业绩电话会,公布财报并介绍EAI战略进展。产品线涵盖Futurist、Master与Aegis三大系列,...
17:34
微新创想:3月30日,昆山万源通电子科技股份有限公司正式向香港交易所提交上市申请,拟主板挂牌。公司注册地为江苏昆山,主营业务覆盖电子元器件的研发与制造领域。此次提交上市申请,标志着企业迈入新的发展阶段。 微新创想:公司选择香港交易所作为上市平台,显示出其在国际化战略上的积极布局。通过主板挂牌,企业有望获得更广泛的资本市场认可,进一步提升品牌影响力和市场竞争力...
17:34
2026年3月30日,阿拉巴马等四州社区健康服务机构Sage Health宣布获得Trinity Capital 5000万美元战略投资。该公司成立于2022年,专注为55岁及以上医保资格人群提供初级护理、心脏病学及综合健康服务。投资将用于扩展其在阿拉巴马州、阿肯色州、马里兰州和密西西比州的社区健康中心网络,强化以小规模患者组、跨学科临床团队和现场健康项目...
17:34
2026年3月30日,飞利浦正式发布Rembra RT智能模拟定位CT。该设备专为放射治疗临床场景设计,由飞利浦沈阳创新中心研发、苏州生产基地制造,即日起面向全球市场供应。Rembra RT集成AI驱动的自动摆位、呼吸运动补偿及快速低剂量成像技术,旨在提升放疗模拟精度与患者流转效率。此举标志着飞利浦加速布局精准放疗影像设备赛道,强化本土研发与全球交付能力。
17:34
微新创想:3月30日,亚马逊澳大利亚站正式上线“K-Beauty(韩妆)”专区。该专区位于亚马逊澳洲站主站,由平台运营团队主导设立,汇集60余个韩国正品护肤与彩妆品牌。 此举旨在提升消费者对韩妆产品的认知与选购效率,通过分类清晰、信息规范的页面设计降低决策门槛。消费者可以更便捷地找到心仪的商品,同时获得更全面的产品信息和品牌介绍。 上线背景是澳洲市场对韩系美...
17:34
微新创想:2025年顺丰控股实现营收3082.3亿元同比增长8.4%首次突破三千亿元大关 微新创想:归母净利润达到111.2亿元同比增长9.3%展现出稳健的盈利能力 微新创想:全年业务量共计167亿票同比增长25.4%增速远超行业平均水平 微新创想:公司持续深化“激活经营”机制推动时效快递经济快递快运冷运医药同城配送及供应链国际等六大板块协同发展 微新创想:...
17:34
微新创想:AI投入在前跑 利润回报在后追 快手的AI价值兑现期,比预期来得更早。财报数据显示,2025年快手总收入达到1428亿元,同比增长12.5%。其中,线上营销业务收入815亿元,同比增长12.5%;直播业务收入391亿元,同比增长5.5%;包括电商业务和可灵AI业务在内的其他服务收入222亿元,同比增长27.6%。2025年,快手全年经调整净利润为2...
17:34
微新创想:2026年,拧螺丝品类在海外又跑出了一匹黑马。自今年年初,一款名为《Happy Screw Trip3D》的游戏收入迎来了大幅上涨。以其最大市场美国为例,游戏的iOS畅销榜排名一路攀升进入TOP150。根据SensorTower的数据,该产品的月收入已经突破了2000万元。《Happy Screw Trip3D》采用拧螺丝+妆扮类ASMR玩法。游戏...