
微新创想12月5日重磅报道,火山引擎今日正式发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)的全新升级版本。该模型基于先进的Seed混合专家大语言模型架构精心打造,在原有基础上实现了多项突破性进展,为用户带来更智能、更精准的语音识别体验。

2.0版本在推理能力上实现了显著提升,通过深度理解上下文信息,能够完成更为精准的语音识别任务。据官方数据显示,上下文整体关键词召回率较上一代模型提高了20%,这意味着用户在复杂对话场景中获取关键信息的准确度大幅增强。这一改进对于需要连续听取并理解多轮对话的应用场景尤为重要。
值得注意的是,豆包语音识别模型2.0不仅具备卓越的听觉能力,还拓展了视觉识别功能。通过支持单图和多图等视觉信息输入,该模型实现了”听懂字”与”看懂图”的双重突破,进一步提升了文字识别的精准度。这种多模态融合的设计理念,使得模型在处理图文结合的场景时表现更为出色。

在语言覆盖方面,2.0版本同样实现了全面升级,不仅支持中文普通话的精准识别,还扩展了日语、韩语、德语、法语等13种海外语种的识别能力。这一改进使得该模型能够更好地服务于全球化用户,满足不同语言环境下的应用需求。
特别值得一提的是,豆包语音识别模型2.0在处理复杂场景时表现突出。针对专有名词、人名、地名、品牌名称以及易混淆的多音字等难点场景进行了专项优化。以历史人物讨论为例,当用户提及”苏辙贬谪地筠州”这一信息时,模型能够通过逻辑推理准确识别出用户所指的特定地名。即便该地名在当前讨论中从未出现,模型也能基于苏轼、苏辙这一讨论背景,精准锁定用户意图,有效避免将”筠州”误识别为同音的”云州”或”郓州”等易混淆地名。

目前,豆包语音识别模型2.0已成功上线火山方舟体验中心,并向公众开放API服务。开发者和企业用户可以通过火山引擎提供的平台,便捷地接入这一强大语音识别能力,为自身产品和服务注入智能化新动能。随着语音技术的不断进步,我们有理由相信,豆包语音识别模型将在更多实际应用场景中发挥重要作用,推动人机交互体验迈向新高度。
