高效轻量化多模态语音模型Granite4.01B Speech发布及开源

2026-03-16 16:01:28 AI动态 5 次阅读

微新创想：IBM 近日正式推出了 Granite4.01B Speech。这是一款专为边缘计算和企业级部署设计的紧凑型语音语言模型，旨在提供高效率的多语种自动语音识别（ASR）与双向自动语音翻译（AST）能力。该模型的推出标志着 IBM 在语音处理领域又迈出了一大步，满足了不同应用场景对语音识别与翻译的多样化需求。

与前代版本相比，Granite4.01B Speech 的参数量仅为上一代模型的一半，但在性能上实现了显著跃升。这种性能与参数量的优化平衡，使得新模型在保持高效的同时，也具备了更强的处理能力。新模型不仅增加了对日语 ASR 的支持，还引入了关键词偏置功能，这一创新有助于提升特定场景下的识别准确率。

此外，Granite4.01B Speech 还大幅提升了英文转录的准确率，为用户提供更高质量的语音处理体验。其核心设计目标是在不牺牲核心能力的前提下，极大地降低内存占用、推理延迟和计算成本。这使得该模型在资源受限的环境中也能表现出色，为边缘设备和移动端应用提供了强有力的支持。

该模型采用了创新的“两阶段设计”架构。系统首先将音频转换为文本，随后通过专门的 Granite 语言模型进行推理处理。这种模块化设计允许开发者根据需求灵活编排流程，从而实现更高效的语音处理方案。无论是单独使用 ASR 还是结合 AST，Granite4.01B Speech 都能提供稳定且准确的输出。

目前，该模型已支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的多语种互译，并能处理英语对中文（普通话）的翻译任务。这意味着开发者可以利用该模型构建跨语言的语音交互系统，适用于国际化的业务场景和多语言环境下的应用需求。

在性能测试中，Granite4.01B Speech 表现出色，位居 OpenASR 排行榜首位。其平均字错率（WER）仅为5.52，这一成绩表明其在语音识别任务中的精准度和可靠性。无论是日常对话还是专业领域的内容处理，该模型都能提供高质量的识别和翻译结果。

IBM 已根据 Apache2.0 协议正式开源该模型，开发者可通过 Transformers 或 vLLM 等主流框架进行本地部署。这种开放性不仅促进了技术的共享与创新，也为各类企业和开发者提供了便捷的工具，助力他们在语音处理领域实现突破。

2026年03月16日

18:21

高效轻量化多模态语音模型Granite4.01B Speech发布及开源

最新快讯

2026年03月16日

市场监管总局2026年启动网络食品安全合规提质专项行动

高凌信息拟收购凯睿星通控股权推动卫星通信产业发展

Freestyle World完成1000万美元A轮融资加速环保婴儿护理产品发展

百图生科赴港上市李彦宏牵头创立AI生命科学大模型融资数亿美元

东莞农商银行章程修订取消监事会两位高管辞任引关注

科金明北交所IPO第二轮问询聚焦社保公积金合规性及风险披露完善

魏牌V9X六座SUV正式亮相归元S平台首款车型发布

Ropedia完成数千万美元种子轮融资英伟达与Google Ventures领投专注机器人与空间智能领域

美光完成力积电铜锣P5厂交割启动二期扩建提升AI DRAM产能

梳邦再也医院荣登2026全球最佳医院前250强彰显东南亚医疗实力

京东两年内打造全球最大具身智能数据采集中心加速技术落地

美银预测2030年人形机器人年出货量将突破120万台