9月1日,阶跃星辰重磅发布全新开源端到端语音大模型——Step-Audio2mini,凭借卓越性能在国际基准测试中屡创佳绩,强势领跑开源语音模型领域。该模型创新性地将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等多元场景中展现出超凡能力,并率先支持语音原生的Tool Calling功能,实现联网搜索等复杂操作。Step-Audio2mini被业界誉为”听得清楚、想得明白、说得自然”,其开放性模型现已登陆GitHub、Hugging Face等主流平台,向全球开发者开放下载、试用与反馈渠道。
Step-Audio2mini在多项关键基准测试中创下历史新高,综合性能全面超越Qwen-Omni、Kimi-Audio等主流开源端到端语音模型,更在大部分任务上领先GPT-4o Audio。在通用多模态音频理解测试集MMAU上,Step-Audio2mini以73.2的卓越得分摘得开源端到端语音模型桂冠;在衡量口语对话能力的URO Bench测试中,该模型在基础与专业赛道双双斩获开源端到端语音模型最高分;中英互译任务评测显示,Step-Audio2mini在CoVoST2和CVSS评测集上分别取得39.3和29.1的亮眼成绩,显著领先GPT-4o Audio及其他开源语音模型;语音识别任务方面,Step-Audio2mini实现多语言多方言全面领先,其中开源中文测试集平均CER(字错误率)仅为3.19,开源英语测试集平均WER(词错误率)3.50,较其他开源模型领先超过15%。
Step-Audio2mini通过突破性架构设计,有效解决了传统语音模型存在的瓶颈,实现”走脑又走心”的智能表现。其采用真端到端多模态架构,彻底突破传统ASR+LLM+TTS三级结构局限,实现从原始音频输入到语音响应输出的直接转换,架构更简洁、时延更低,并能精准理解副语言信息与非人声信号。此外,Step-Audio2mini在端到端语音模型中首创链式思维推理(CoT)与强化学习联合优化技术,能够对情绪、语调、音乐等副语言及非语音信号进行深度理解、逻辑推理并作出自然回应。模型还支持包括web检索等外部工具调用,有效缓解幻觉问题,并赋予模型在多场景扩展上的无限可能。
Step-Audio2mini的强大能力在多个实际案例中得到生动印证。它能精准识别大自然的声音、专业配音,还能实时搜索获取行业最新资讯;支持动态调整语速,从容应对不同场景的对话需求;面对哲学难题时,能将抽象问题转化为极简方法论,展现惊人的逻辑推理能力。开发者可通过以下平台获取该模型:GitHub:https://github.com/stepfun-ai/Step-Audio2Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-miniModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini