阶跃发布开源端到端语音大模型Step-Audio2mini性能惊艳

2025-09-01 11:14:30 AI动态 61 次阅读

9月1日，阶跃星辰重磅发布全新开源端到端语音大模型——Step-Audio2mini，凭借卓越性能在国际基准测试中屡创佳绩，强势领跑开源语音模型领域。该模型创新性地将语音理解、音频推理与生成统一建模，在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等多元场景中展现出超凡能力，并率先支持语音原生的Tool Calling功能，实现联网搜索等复杂操作。Step-Audio2mini被业界誉为”听得清楚、想得明白、说得自然”，其开放性模型现已登陆GitHub、Hugging Face等主流平台，向全球开发者开放下载、试用与反馈渠道。

Step-Audio2mini在多项关键基准测试中创下历史新高，综合性能全面超越Qwen-Omni、Kimi-Audio等主流开源端到端语音模型，更在大部分任务上领先GPT-4o Audio。在通用多模态音频理解测试集MMAU上，Step-Audio2mini以73.2的卓越得分摘得开源端到端语音模型桂冠；在衡量口语对话能力的URO Bench测试中，该模型在基础与专业赛道双双斩获开源端到端语音模型最高分；中英互译任务评测显示，Step-Audio2mini在CoVoST2和CVSS评测集上分别取得39.3和29.1的亮眼成绩，显著领先GPT-4o Audio及其他开源语音模型；语音识别任务方面，Step-Audio2mini实现多语言多方言全面领先，其中开源中文测试集平均CER（字错误率）仅为3.19，开源英语测试集平均WER（词错误率）3.50，较其他开源模型领先超过15%。

Step-Audio2mini通过突破性架构设计，有效解决了传统语音模型存在的瓶颈，实现”走脑又走心”的智能表现。其采用真端到端多模态架构，彻底突破传统ASR+LLM+TTS三级结构局限，实现从原始音频输入到语音响应输出的直接转换，架构更简洁、时延更低，并能精准理解副语言信息与非人声信号。此外，Step-Audio2mini在端到端语音模型中首创链式思维推理（CoT）与强化学习联合优化技术，能够对情绪、语调、音乐等副语言及非语音信号进行深度理解、逻辑推理并作出自然回应。模型还支持包括web检索等外部工具调用，有效缓解幻觉问题，并赋予模型在多场景扩展上的无限可能。

Step-Audio2mini的强大能力在多个实际案例中得到生动印证。它能精准识别大自然的声音、专业配音，还能实时搜索获取行业最新资讯；支持动态调整语速，从容应对不同场景的对话需求；面对哲学难题时，能将抽象问题转化为极简方法论，展现惊人的逻辑推理能力。开发者可通过以下平台获取该模型：GitHub:https://github.com/stepfun-ai/Step-Audio2Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-miniModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini