微软发布全球最精准语音转写模型MAI-Transcribe-1 25种语言平均词错误率仅3.9%

2026-04-03 10:35:18 AI动态 2 次阅读

微新创想：近日微软宣布推出全新语音转文字模型 MAI-Transcribe-1 该模型在 25 种语言上的平均词错误率 WER 仅为 3.9% 被誉为目前全球最精准的转写模型。这是微软自研的 MAI 系列模型中的第三款之前还发布了语音合成模型 MAI-Voice-1 和图像生成模型 MAI-Image-2。根据微软的介绍 MAI-Transcribe-1 在 FLEURS 行业标准基准测试中表现出色特别是在 25 种语言中 11 种 “核心语言” 如英语法语德语等的转写精度排名第一。

这款模型不仅在多种语言的转写场景中表现优异还在与 OpenAI 的 Whisper-large-v3 和 Google 的 Gemini 3.1 Flash 模型的对比中显示出明显优势。MAI-Transcribe-1 适用于多语种的各种语音转写场景包括会议记录媒体内容转写等。尽管当前版本尚不支持实时转写说话人分离等高级功能微软计划在后续更新中增强这些能力。

在性能方面新模型在批量转写任务上速度领先批处理转写速度达到了现有 Microsoft Azure Fast 产品的 2.5 倍。此外 MAI-Transcribe-1 已通过 Microsoft Foundry 平台向企业和开发者开放定价为每小时 0.36 美元微软表示这是当前云服务提供商中 “性价比最高” 的语音转写模型之一。微软还宣布将 MAI-Image-2 和 MAI-Voice-1 引入 Foundry 平台进一步增强其语音识别语音合成和图像生成等多模态 AI 领域的自研能力力求为开发者提供更具性能和成本优势的解决方案。