音频创作领域迎来颠覆性变革。国内AI独角兽企业阶跃星辰(StepStepFun AI)于11月9日震撼发布全球首款LLM级音频编辑模型——Step-Audio-EditX,开创性地实现了”用自然语言指令编辑语音”的划时代体验。用户只需输入”把这段话改成川渝rapper的嚣张语气”或”结尾加一个害羞的笑声”,模型便能精准调整音色、情绪、节奏乃至呼吸停顿,让语音编辑的便捷性堪比修改文档。
30亿参数,性能实现飞跃Step-Audio-EditX的核心创新在于其突破性的模型压缩技术。研发团队将原本130亿参数的原始模型精炼至仅剩30亿,不仅显著降低了部署成本,更在关键性能指标上实现了全面超越。该模型支持零样本语音克隆——仅需一句参考音频,无需目标人物提供任何训练数据,即可实现高保真音色复现;同时具备多轮迭代编辑功能,用户可通过连续发出细化指令(如”再温柔一点””笑声延长0.3秒”),逐步实现理想效果。
方言与情感,精准拿捏Step-Audio-EditX对中文语境的理解能力令人惊叹,流畅支持普通话、英语、四川话、粤语等多种语言,能够精准捕捉方言表达中的地域情绪与语用习惯,呈现出自然真实的语言风格。在专业盲测中,评测员一致评价其”川渝段子的市井感””粤语语气词的细腻度”远超同类产品。

全面领先,硬刚闭源商用模型根据AIbase获取的权威对比数据,Step-Audio-EditX在三大核心维度上全面碾压Minimax与字节跳动Doubao等闭源方案:自然度评分高达4.72/5(Minimax为4.51,Doubao为4.38);情感准确率达到了93.7%,领先第二名6.2个百分点;音色保持度更是达到98.1%,几乎无损还原原始音质。
应用场景爆发:从短视频到无障碍服务这一革命性技术正在催生全新内容创作形态:短视频博主可一键切换”元气少女””毒舌导师”等不同人设的声音;有声书创作者单人即可完成多角色情感对白;四川话搞笑视频经AI重制后,瞬间转化为美式脱口秀风格;听障用户的语音合成系统首次获得”情感温度”,彻底告别冰冷机械的合成音。AIbase专家认为,Step-Audio-EditX的意义远不止工具升级——它正在重构整个音频内容的生产逻辑。
当语音不再是”录制即定型”的线性媒介,而成为可反复雕琢的”活文本”,亿万创作者将获得前所未有的表达自由。阶跃星辰下一步计划开放API或集成至手机系统,这把”AI魔法剪刀手”或将真正进入每个人的口袋,让每一次发声都能被无限重新想象。

产品入口:https://stepaudiollm.github.io/step-audio-editx/
