
微新创想:法国 AI 领军企业 Mistral AI 正式发布了两款全新的语音转文字(Speech-to-Text)模型 旨在重新定义转录速度 隐私保护与性价比的行业标准 这次推出的模型包括 Voxtral Mini Transcribe V2 和 Voxtral Realtime 均隶属于 Voxtral Transcribe2体系 这两款模型可提供顶级的转录质量 说话人识别以及极低的延迟表现 适用于虚拟助手 呼叫中心自动化及合规记录等多种商业场景
核心产品亮点 Voxtral Realtime 专为直播音频设计 采用创新的流式架构 其延迟最低可配置为 200毫秒 在480毫秒的延迟下 错误率仅为1%-2% 几乎等同于离线转录精度 该模型仅有40亿参数 支持在手机或笔记本电脑等本地设备上运行 极大保障了隐私安全 目前已在 Hugging Face 平台以 Apache2.0协议开源 API 价格为 0.006美元/分钟

Voxtral Mini Transcribe2 专门处理预录音文件 它支持长达3小时的单次请求 并具备精准的说话人标注和时间戳功能 其在 FLEURS 词错率基准测试中表现优异 而 API 价格仅为 0.003美元/分钟 被 Mistral AI 称为目前市场上性价比最高的转录方案
两款模型均原生支持包括中文 英语 法语 日语在内的13种语言 用户目前已可在 Mistral AI 的 Audio Playground 或 Le Chat 助手上进行体验
划重点 极致性能 实时模型延迟低至200ms 离线模型具备极高的词错率 WER 优势 本地化部署 4B 参数量的轻量化设计支持在本地设备运行 无需上传云端 确保隐私安全 高性价比 批量转录 API 低至每分钟0.003美元 力求在企业市场建立价格优势 多语言支持 原生支持全球13种主流语言 涵盖绝大部分商业应用场景
