
微新创想:在最新发布的全球权威TTS(语音合成)评测榜单Artificial Analysis Speech Arena Leaderboard中 来自中国的阶跃星辰(StepFun)展现出强劲实力 其语音生成模型StepAudio2.5TTS凭借出色的听感表现跻身全球前三 成为目前该榜单中排名最高的中国大模型产品
与传统的实验室数据指标不同 该榜单采用了更为严苛的“盲测Elo评分机制” 在这种模式下 用户在完全不知道模型身份的情况下 对两段由同一文本生成的音频进行主观听感评判 测试场景涵盖了在线客服 知识分享 数字助手以及娱乐互动等真实生活片段 阶跃星辰的胜出 意味着其生成的语音在真实用户反馈中更具“人情味” 在语调自然度与表达感染力上已具备国际顶尖的竞争力

目前 阶跃星辰已密集发布了StepAudio2.5系列的全链路模型 包括负责语音生成的TTS 主打高精度识别的ASR 以及最新上线的Realtime实时交互模型 其中 Realtime模型特别强调了“活人感”的营造 通过顶级的副语言能力和千万人设的自定义功能 试图为用户打造一个有温度 有灵魂的AI聊天伙伴
事实上 这家公司在中国语音AI领域的布局早已铺开 其开源原生推理模型Step Audio R1.1已在另一项全球语音推理榜单中连续四个月位居榜首 而另一款开源的情绪风格编辑模型Step Audio EditX 仅需3秒素材即可完成高质量的音色复刻 展现了极高的技术效率
在技术落地的商业化路径上 阶跃语音模型也走在了前列 目前 该技术已成功搭载于吉利银河M9等多款车型 实现了端到端语音大模型的量产上车 同时 在极氪8X等车型的智能交互系统中 该模型也作为核心驱动力 为整车智能体提供了更自然 流畅的交互体验
