
Meta 旗下前沿人工智能研究团队 FAIR 近期震撼发布了一款革命性自动语音识别系统——Omnilingual ASR,其核心突破在于能够精准转录超过1600种语言的口语表达。这一里程碑式的成果打破了传统语音识别技术仅聚焦于数百种资源丰富语言的局限,填补了全球7000多种语言中绝大多数语言缺乏AI支持的技术鸿沟。据FAIR团队介绍,此次推出的1600种语言中,竟有高达500种语言此前从未被任何AI系统覆盖过,这充分彰显了Meta在通用转录系统领域的雄心壮志,其最终目标是通过这一技术彻底打破全球语言交流的壁垒。
Omnilingual ASR 的性能表现令人瞩目。Meta公布的测试数据显示,在全部1600种语言中,有78%的语言字符错误率低于10%,而在训练音频超过10小时的语言中,这一比例更是提升至95%。即便是那些传统意义上的”低资源”语言,即音频训练时间不足10小时的语言,仍有36%实现了低于10%的字符错误率。这一卓越表现充分证明了该系统在资源有限条件下的强大适应能力。
为了进一步推动语音识别技术的普惠发展,Meta同步发布了Omnilingual ASR语料库这一宝贵资源。该语料库包含350种长期被忽视的欠代表性语言的转录语音数据,所有数据均以知识共享CC-BY许可证开放,旨在赋能开发者和研究人员根据特定地域需求定制或优化语音识别模型。这一举措将极大促进全球语言多样性保护和技术公平性提升。
Omnilingual ASR 最具创新性的功能之一是”自带语言”选项。该系统采用先进的上下文学习方法,用户只需提供少量配对的音频和文本样本,系统便能直接从这些示例中自主学习,无需进行复杂的重训练或消耗大量计算资源。Meta团队测算显示,这一创新方法理论上可将Omnilingual ASR的应用范围扩展至超过5400种语言,远超当前行业技术所能达到的语言覆盖水平。尽管在资源匮乏的语言上识别质量尚未达到全面训练系统的水准,但这一解决方案为历史上从未接触过语音识别技术的语言社区提供了切实可行的技术路径。

作为开源项目,Omnilingual ASR 采用了业界通行的Apache2.0许可证,完全开放给研究人员和开发者使用、修改和商业化应用。系统提供了从300百万参数的轻量级版本到7十亿参数的顶尖准确度版本,所有模型均基于FAIR团队成熟的PyTorch框架开发。用户还可以通过官网进行实时演示体验。
demo:https://aidemos.atmeta.com/omnilingualasr/language-globe
划重点:🌍 Meta 推出 Omnilingual ASR 系统,支持超过1600种语言的语音识别,旨在填补 AI 在语言识别上的空白。📊 系统准确性依赖于训练数据,大部分支持的语言字符错误率低于10,部分低资源语言亦有显著表现。📦 Omnilingual ASR 为开源项目,提供丰富的数据集,支持开发者针对地方需求进行模型构建。
