随着人工智能技术的迅猛发展,语音交互正逐渐成为人与机器沟通的主流方式。近日,法国初创企业 Mistral 正式发布了其首款开源音频模型 Voxtral,这一创新举措旨在打破大型企业封闭系统的市场垄断,为开发者们提供一个更灵活且经济高效的替代选择。Mistral 声称,Voxtral 是首个能够在实际应用中提供“真正可用语音智能”的开源模型,这意味着开发者们不再需要在低成本的开源系统和高效但封闭的解决方案之间做出艰难的抉择。Voxtral 以其“不到一半价格”的显著优势,为企业提供了一个极具性价比的选择。
据 Mistral 详细介绍,Voxtral 能够转录长达30分钟的音频内容。得益于其基于大型语言模型 Mistral Small3.1 的技术架构,用户甚至能够理解最长可达40分钟的音频信息。Voxtral 的功能远不止于此,用户不仅可以针对音频内容提出相关问题,还能自动生成摘要,甚至将语音指令转化为实时操作,例如调用 API 或执行特定功能。此外,Voxtral 还具备强大的多语言支持能力,能够理解和转录英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。
Mistral 为用户提供了两种“语音理解模型”的变体。首先是参数量高达240亿的 Voxtral Small,该模型适用于生产级部署,并与 ElevenLabs Scribe、GPT-4o-mini 和 Gemini2.5Flash 等主流模型展开竞争。其次是参数量仅为30亿的 Voxtral Mini,这款模型专为本地和边缘部署场景设计。此外,Mistral 还推出了一款超经济版的3亿参数模型——Voxtral Mini Transcribe,该模型专为转录场景优化,其性能承诺超越 OpenAI 的 Whisper,而价格却不到其一半。
用户可以通过 Hugging Face 免费下载 Voxtral 的 API,或在 Mistral 的聊天机器人 Le Chat 中进行实际测试。根据公司公布的信息,API 的集成费用从每分钟0.001美元起。此次发布恰逢 Mistral 一个月前推出的推理模型 Magistral,这些模型通过逐步解决问题的方式显著提高了可靠性。作为欧洲顶尖的人工智能公司之一,Mistral 一直以来都积极推动开源 AI 模型的发展。值得注意的是,近期有消息称 Mistral 正在与投资者进行洽谈,计划筹集高达10亿美元的资金,其中阿布扎比的 MGX 基金可能是重要的投资方之一。