阶跃星辰发布30亿参数音频编辑模型Step-Audio-EditX实现自然语言语音编辑

2025-11-10 11:53:29 AI动态 3 次阅读

音频创作领域迎来颠覆性变革。国内AI独角兽企业阶跃星辰（StepStepFun AI）于11月9日震撼发布全球首款LLM级音频编辑模型——Step-Audio-EditX，开创性地实现了”用自然语言指令编辑语音”的划时代体验。用户只需输入”把这段话改成川渝rapper的嚣张语气”或”结尾加一个害羞的笑声”，模型便能精准调整音色、情绪、节奏乃至呼吸停顿，让语音编辑的便捷性堪比修改文档。

30亿参数，性能实现飞跃Step-Audio-EditX的核心创新在于其突破性的模型压缩技术。研发团队将原本130亿参数的原始模型精炼至仅剩30亿，不仅显著降低了部署成本，更在关键性能指标上实现了全面超越。该模型支持零样本语音克隆——仅需一句参考音频，无需目标人物提供任何训练数据，即可实现高保真音色复现；同时具备多轮迭代编辑功能，用户可通过连续发出细化指令（如”再温柔一点””笑声延长0.3秒”），逐步实现理想效果。

方言与情感，精准拿捏Step-Audio-EditX对中文语境的理解能力令人惊叹，流畅支持普通话、英语、四川话、粤语等多种语言，能够精准捕捉方言表达中的地域情绪与语用习惯，呈现出自然真实的语言风格。在专业盲测中，评测员一致评价其”川渝段子的市井感””粤语语气词的细腻度”远超同类产品。

全面领先，硬刚闭源商用模型根据AIbase获取的权威对比数据，Step-Audio-EditX在三大核心维度上全面碾压Minimax与字节跳动Doubao等闭源方案：自然度评分高达4.72/5（Minimax为4.51，Doubao为4.38）；情感准确率达到了93.7%，领先第二名6.2个百分点；音色保持度更是达到98.1%，几乎无损还原原始音质。

应用场景爆发：从短视频到无障碍服务这一革命性技术正在催生全新内容创作形态：短视频博主可一键切换”元气少女””毒舌导师”等不同人设的声音；有声书创作者单人即可完成多角色情感对白；四川话搞笑视频经AI重制后，瞬间转化为美式脱口秀风格；听障用户的语音合成系统首次获得”情感温度”，彻底告别冰冷机械的合成音。AIbase专家认为，Step-Audio-EditX的意义远不止工具升级——它正在重构整个音频内容的生产逻辑。

当语音不再是”录制即定型”的线性媒介，而成为可反复雕琢的”活文本”，亿万创作者将获得前所未有的表达自由。阶跃星辰下一步计划开放API或集成至手机系统，这把”AI魔法剪刀手”或将真正进入每个人的口袋，让每一次发声都能被无限重新想象。

产品入口：https://stepaudiollm.github.io/step-audio-editx/

2025年11月10日

15:13

阶跃星辰发布30亿参数音频编辑模型Step-Audio-EditX实现自然语言语音编辑

最新快讯

2025年11月10日

2025双11AI全面落地：三大创新重塑消费体验

宋雨琦体验OPPO Reno15系列全息光刻工艺四色潮搭

马斯克用AI视频庆薪酬获批遭作家欧茨痛批缺乏文化素养

Amae Health获2.5亿美元B轮融资加速精神疾病综合护理创新

OPPO Reno15系列11月17日发布星光蝴蝶结设计曝光

易澄新能获数千万元融资加速透明光伏技术研发产业化

谷神星一号火箭发射失败未达预定轨道星河动力致歉启动分析

3I/ATLAS七道喷流异常或外星技术迹象科学家解析

珺澄药业1.26亿全资收购金太阳生化药业加速医药制造布局

清思智能获亿元融资加速城市视觉AI应用落地

易澄新能源获麟阁创投种子轮 OPV技术引领绿色能源新时代

Quantinuum晋级DARPA量子计划B阶段助力2033实用量子计算