
微新创想:IBM 近日正式推出了 Granite4.01B Speech。这是一款专为边缘计算和企业级部署设计的紧凑型语音语言模型,旨在提供高效率的多语种自动语音识别(ASR)与双向自动语音翻译(AST)能力。该模型的推出标志着 IBM 在语音处理领域又迈出了一大步,满足了不同应用场景对语音识别与翻译的多样化需求。
与前代版本相比,Granite4.01B Speech 的参数量仅为上一代模型的一半,但在性能上实现了显著跃升。这种性能与参数量的优化平衡,使得新模型在保持高效的同时,也具备了更强的处理能力。新模型不仅增加了对日语 ASR 的支持,还引入了关键词偏置功能,这一创新有助于提升特定场景下的识别准确率。
此外,Granite4.01B Speech 还大幅提升了英文转录的准确率,为用户提供更高质量的语音处理体验。其核心设计目标是在不牺牲核心能力的前提下,极大地降低内存占用、推理延迟和计算成本。这使得该模型在资源受限的环境中也能表现出色,为边缘设备和移动端应用提供了强有力的支持。

该模型采用了创新的“两阶段设计”架构。系统首先将音频转换为文本,随后通过专门的 Granite 语言模型进行推理处理。这种模块化设计允许开发者根据需求灵活编排流程,从而实现更高效的语音处理方案。无论是单独使用 ASR 还是结合 AST,Granite4.01B Speech 都能提供稳定且准确的输出。
目前,该模型已支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的多语种互译,并能处理英语对中文(普通话)的翻译任务。这意味着开发者可以利用该模型构建跨语言的语音交互系统,适用于国际化的业务场景和多语言环境下的应用需求。
在性能测试中,Granite4.01B Speech 表现出色,位居 OpenASR 排行榜首位。其平均字错率(WER)仅为5.52,这一成绩表明其在语音识别任务中的精准度和可靠性。无论是日常对话还是专业领域的内容处理,该模型都能提供高质量的识别和翻译结果。
IBM 已根据 Apache2.0 协议正式开源该模型,开发者可通过 Transformers 或 vLLM 等主流框架进行本地部署。这种开放性不仅促进了技术的共享与创新,也为各类企业和开发者提供了便捷的工具,助力他们在语音处理领域实现突破。
