微新创想:2026年4月2日,微软正式推出自研语音转录模型MAI-Transcribe-1。该模型在FLEURS基准测试中表现出色,覆盖25种语言,平均字错误率仅为3.9%,宣称是目前全球最精准的语音转录模型之一。在11种核心语言的测试中,MAI-Transcribe-1排名首位,其性能显著超越了Whisper-large-v3及Gemini 3.1 Flash等现有主流模型。
微新创想:MAI-Transcribe-1在转录速度方面也有明显提升,达到Azure Fast服务的2.5倍。同时,微软为该模型提供了极具竞争力的定价策略,仅需0.36美元每小时,成为当前主流云厂商中性价比最高的选择之一。这一价格优势使得更多企业和开发者能够负担得起高质量的语音转录服务。
微新创想:目前,MAI-Transcribe-1已上线Microsoft Foundry平台,用户可以在此获取并使用该模型。不过,首发版本暂不支持实时转录、说话人分离以及偏见调整等功能。微软表示,未来将逐步推出更多高级功能,以满足不同场景下的需求。这一发布标志着微软在语音识别领域迈出了重要的一步。
