StepFun AI开源音频编辑模型Step-Audio-EditX，实现高效精准音频编辑

2025-11-10 09:50:47 AI动态 3 次阅读

StepFun AI 近期宣布开源其革命性的音频编辑模型 Step-Audio-EditX，这一创新的3B参数模型将复杂的音频编辑操作简化为如同文本编辑般的直观体验。通过将音频信号处理转化为逐字的令牌化操作，Step-Audio-EditX 让富有表现力的语音编辑变得触手可及。

当前市场上的零样本文本到语音（TTS）系统在情感、风格、口音和音色等方面的控制能力仍存在明显局限。尽管这些系统能够生成自然流畅的语音，却难以精准满足用户的个性化需求。传统研究试图通过增设编码器或构建复杂架构来分解这些控制因素，而 Step-Audio-EditX 则另辟蹊径，通过优化数据结构和训练目标实现精细化控制。

该模型创新性地采用双代码本标记器架构，将语音信号映射为两个互补的令牌流——一个以16.7Hz的速率记录语言信息，另一个以25Hz的速率捕捉语义特征。通过在包含文本和音频令牌的混合语料库上进行深度训练，模型实现了对双模态数据的无缝处理。其核心突破在于运用大边距学习方法，在后续训练阶段通过合成的高质量三元组和四元组数据集持续强化模型性能。

得益于约6万名说话者的海量高质量数据支持，Step-Audio-EditX 在情感表达和风格转换方面展现出卓越表现。模型还引入人类评分和偏好数据作为强化学习输入，进一步提升了语音生成的自然度和准确性。为全面评估模型效能，研究团队专门开发了 Step-Audio-Edit-Test 基准测试体系，并采用 Gemini2.5Pro 作为评判工具。

测试结果表明，经过多轮精细化编辑后，模型在情感表达和说话风格还原上的准确率实现了显著突破。更令人惊喜的是，Step-Audio-EditX 能够有效提升其他闭源TTS系统的音频输出质量，为音频编辑领域的研究开辟了全新路径。该模型的完整技术细节已发布在arXiv平台（https://arxiv.org/abs/2511.03601）。

🎤 StepFun AI 推出 Step-Audio-EditX 模型，使音频编辑更简便
📈 该模型采用大边距学习，提升情感和风格编辑的准确性
🔍 引入 Step-Audio-Edit-Test 基准，显著提升音频质量评估

2025年11月10日

13:04

StepFun AI开源音频编辑模型Step-Audio-EditX，实现高效精准音频编辑

最新快讯

2025年11月10日

灵启万物获天使轮融资，加速人形机器人AI技术研发

长征十二号成功发射13组低轨互联网卫星

消费查平台收录近20万商家推动全国线下无理由退货服务普及

多家银行关停信用卡直销银行App引发关注数字化转型进入存量竞争

日本岩手县以东海域5.3级地震发生震源深度10公里无海啸风险

2025年11月首周国家铁路货运量达8166万吨环比增3.94%

中国第42次南极科考队启程雪龙雪龙2号破冰船穿越赤道

飞智黑武士5 Pro游戏手柄性能革新操控体验全面升级

华鹏飞开创中哈欧跨境电商TIR首运新篇章

双欣环保IPO获批将登陆深交所主板募资18.65亿发展绿色化工

日本新潟县禽流感爆发扑杀28万鸡引发蛋价担忧

南航大突破“机身即电池”技术无人机续航载重获新解