微软近日开源了名为VibeVoice的前沿语音 AI 模型家族,涵盖自动语音识别(ASR)和文本转语音(TTS)等多项能力。该项目以其强大的长音频处理、多说话人自然对话生成以及实时低延迟特性,迅速在开发者社区引发关注,目前已在 GitHub 收获约27K Star。

作为开源研究框架,VibeVoice 采用 MIT 许可协议,支持本地部署,无需云端订阅费用,旨在推动语音合成领域的协作与创新。模型家族主要包括三个核心成员,各有侧重,共同解决了传统语音 AI 在长序列处理、说话人一致性和自然流畅性上的痛点。

image.png

VibeVoice-ASR-7B:长达60分钟的结构化语音转文本利器

VibeVoice-ASR-7B 是一个统一的语音转文本模型,能够一次性处理长达60分钟的音频文件,直接输出结构化转录结果。输出不仅包含“谁在说话”(说话人识别)、“何时说话”(精确时间戳),还包括“说了什么”(详细内容),并支持自定义热词功能,可有效提升专有名词或技术术语的识别准确率。该模型支持超过50种语言,适用于长篇会议记录、播客转录等复杂场景。

社区开发者已基于该模型开发出实用工具,例如一款名为Vibing的语音输入法,支持 macOS 和 Windows 平台。用户反馈显示,其识别速度和准确率表现不错,可显著提升日常语音输入效率。

VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成

VibeVoice-TTS-1.5B 是专注于文本转语音的核心模型,能在单次生成中产出长达90分钟的连续音频,支持最多4个不同说话人进行自然对话模拟。模型生成的语音富有表现力,听起来自然流畅,能模拟真实的停顿、强调和情感转折,非常适合制作播客、长音频叙事、有声书或多角色对话内容。

相比许多传统 TTS 模型仅支持1-2个说话人,VibeVoice-TTS 在长形式、多说话人一致性上实现了显著突破。其底层采用连续语音分词器(声学与语义分词器)结合低帧率设计(7.5Hz),大幅提升了长序列处理的计算效率。

VibeVoice-Realtime-0.5B:约300毫秒延迟的实时 TTS

VibeVoice-Realtime-0.5B 专注于实时场景,支持流式文本输入,首音频输出延迟约300毫秒,同时还能生成约10分钟的长篇语音。该模型特别适合需要即时回应的交互应用,如实时语音助手或直播配音场景。

此外,项目还引入了实验性说话人支持,包括多语言语音和多种英语风格变体,为开发者提供更多定制空间。

AIbase 点评:微软 VibeVoice 的开源不仅降低了高性能语音 AI 的使用门槛,还为本地部署提供了完整解决方案。项目曾因潜在误用风险短暂下架,后通过嵌入音频水印、可听免责声明等安全机制重新上线,体现了负责任 AI 开发的原则。目前,开发者可在 GitHub 仓库和 Hugging Face 获取模型权重,并通过 Colab 等平台快速试用。

随着开源社区的持续贡献(如针对 Apple Silicon 的优化 fork),VibeVoice 有望在内容创作、无障碍工具、语音交互等领域加速落地。感兴趣的开发者可访问微软官方项目页进一步探索

项目地址:https://github.com/microsoft/VibeVoice

最新快讯

2026年03月30日

16:31
微新创想:早上一睁眼就摸手机,这似乎是很多人的日常习惯。不过,最近有专家提醒,这样的习惯可能对我们的健康和效率产生不良影响。一时间,“早晨不要一睁眼就看手机”成了大家热议的话题。 据了解,不少人在早晨醒来后,第一件事就是拿起手机查看消息、刷社交媒体。然而,这种习惯可能会打断我们的自然醒觉过程,让人一整天都感到疲惫不堪。 专家指出,早晨刚醒来时,身体需要一段时...
16:31
微新创想:最近手机市场刮起了一阵“涨价风”不少千元机都悄悄涨了价这可让年轻人们犯了难——换新机吧价格实在不友好继续用旧手机吧又怕卡顿影响体验 不过最近不少年轻人发现自己的旧手机在涨价后反而“不卡了”这究竟是怎么回事呢原来啊面对手机涨价的现实不少年轻人选择了“理性消费”他们不再盲目追求新款而是开始精心呵护自己的旧手机清理内存删除不常用的软件定期重启……这些看似...
16:31
微新创想:3月30日消息 在3月举行的华为春季全场景新品发布会上 全新的华为畅享90系列正式亮相 其中畅享90Pro Max一经发布便迅速引爆市场 展现出了极强的市场号召力 根据电商平台的数据 该机型斩获京东热卖榜1000至2000元价位段的销量冠军 由于市场反响远超预期 目前部分版本已出现缺货现象 其中备受青睐的飞天青128GB版本 订单最晚发货时间已排至...
16:31
微新创想:小米18系列预计将于今年9月正式亮相。此次小米将同步推出小米18、小米18Pro以及小米18Pro Max三款旗舰机型。根据博主最新的爆料,小米18Pro Max的工程机正在测试极其激进的双2亿像素方案。其中主摄采用了2亿像素1/1.28英寸超大底方案,并应用了先进的22纳米制程工艺。该主摄不仅支持新一代LOFIC技术以及HDR3.0,拥有超高的动...
16:31
微新创想 小米米家智能空气炸锅Pro蒸烤版6.5L今天正式开启众筹 定价559元 建议零售价749元 新品主打蒸炸复合烹饪 搭载900W专业蒸汽发生器 可输出130℃高温直喷蒸汽 相比传统电蒸锅烹饪效率提升30% 蒸制食材干爽不渗水 口感更鲜嫩 搭配360循环热风 实现外脆里嫩的蒸汽炸效果 复热面点不干硬 同时逼出油脂 锁住肉汁与营养 配备1.5L大...
16:30
微新创想:马斯克旗下的 AI 公司 xAI 再次面临重大人事变动 公司最后一位联合创始人 Tony Wu 已于近日离开 这标志着 xAI 最初的创始团队在成立不到三年的时间里已全部流失 Tony Wu 此前在 xAI 负责模型架构与核心算法研发 曾是谷歌 DeepMind 的明星工程师 创始成员悉数退出:愿景冲突还是大厂挖角 xAI 成立于 2023 年 最...
15:54
微新创想:智元机器人(AgiBot)近日宣布其第10,000台通用具身机器人“远征A3”于2026年3月28日正式下线 这一里程碑事件标志着该企业在具身智能领域实现了从技术研发向大规模工业化生产的关键跨越 自2025年1月起智元机器人在短短15个月内完成了量产规模的十倍级增长 复盘其产能攀升路径智元从1,000台增至5,000台历时约11个月而从5,000台...
15:53
微新创想:在 AI 创作门槛大幅降低的背景下 YouTube 正面临前所未有的低质量内容冲击 据 cnBeta 援引最新行业观察报道 大量利用 AI 生成脚本 配音和画面的垃圾视频正在淹没平台 这些视频通常围绕热点新闻 虚假科技爆料或毫无意义的解说展开 依靠算法的推荐机制获取流量 这种现象不仅挑战了观众的忍耐力 也让 YouTube 高层和内容审核团队深感焦...
15:31
微新创想:3月30日,TÜV莱茵与深圳市龙岗区商务局、深圳信息职业技术大学在龙岗区企业国际化服务基地正式签署《低空技术检测认证合作框架协议》。此次合作标志着三方在推动低空经济领域发展方面迈出了重要一步。 三方将共同建设民用低空技术检测认证研训基地。该基地将聚焦于提升低空经济相关技术的检测认证能力,同时加强专业人才的培养与培训。通过资源整合与协同创新,基地将成...
15:31
2026年3月,中科桂投港务农业完成5000万元A轮融资。该公司为数智化养殖服务商,总部位于广西,聚焦育肥牛养殖、牛黄培育与地龙养殖三大业务。本轮融资将用于扩建数智化养殖基地、延伸生物医药研发链条及升级冷链物流网络。公司以富硒秸秆等绿色饲料加工为基础,构建集养殖、加工、冷链、研发于一体的产业生态。此次融资旨在强化技术驱动能力与产业链协同效应。
15:31
微新创想:3月30日,跨境电商企业子不语发布2025年业绩公告 全年实现总收入46.602亿元 同比增长40.2% 子不语在2025年取得了显著的财务成果 全年总收入达到46.602亿元 相比2024年实现了40.2%的同比增长 这一成绩反映了公司在全球市场中的持续扩张和业务增长 股东应占净利润2.692亿元 增长78.6% 在收入增长的同时 子不语的股东应...
15:31
微新创想:3月18日,广汽旗下埃安品牌AION UT车型在奥地利麦格纳工厂正式量产启动并成功下线。此次下线标志着广汽集团在欧洲市场的布局迈出了重要一步。AION UT是广汽专为欧洲市场打造的纯电紧凑型SUV,其本地化生产将有助于提升产品在欧洲的竞争力。 微新创想:此次量产启动不仅体现了广汽集团对欧洲市场的重视,也展示了其在新能源汽车领域持续深耕的决心。通过在...