7月22日,腾讯混元正式宣布其自主研发的ASR(语音识别)大模型成功落地ima平台,在手机App端首次实现了语音输入功能,为用户带来前所未有的“出口成章”式便捷体验。这一创新突破让用户能够通过语音直接输入问题或记录灵感,彻底摆脱手动敲击键盘的束缚,输入效率实现质的飞跃。
腾讯混元ASR大模型凭借其卓越的听觉感知能力和智能理解力脱颖而出,即使在嘈杂复杂的环境下依然能够精准识别语音。该模型每分钟可识别300字,速度比手动输入快整整4倍,且识别结果更加自然流畅,真正做到”听”懂用户意图。尤为值得一提的是,该模型创新性地采用了业界首个基于双编码器的流式ASR架构,在语义理解能力上实现了显著突破,尤其在中英文混杂等复杂场景中表现更为出色。
此次ima平台引入的语音输入功能,已全面覆盖知识库问答、笔记创作等多个核心应用场景。当用户在进行知识库查询或首页问答时,若问题较长,可直接通过语音输入完成;在撰写笔记时,ima化身一位贴心的”听音助手”,帮助用户流畅创作,并能智能识别旧笔记内容实现快捷续写,真正做到无缝衔接。此外,iOS用户还可以通过添加桌面小组件,进一步优化提问体验,让操作更加便捷高效。
腾讯混元团队表示,未来将持续优化ASR大模型性能,重点提升方言识别和多语言识别能力,不断扩充支持的语言类型,以满足全球不同场景下的使用需求。此次语音输入功能的上线,不仅彰显了腾讯混元在语音识别领域的领先技术实力,更为用户开创了更加高效、便捷的输入方式,标志着智能交互体验迈入全新篇章。