StepFun AI 近期宣布开源其革命性的音频编辑模型 Step-Audio-EditX,这一创新的3B参数模型将复杂的音频编辑操作简化为如同文本编辑般的直观体验。通过将音频信号处理转化为逐字的令牌化操作,Step-Audio-EditX 让富有表现力的语音编辑变得触手可及。
当前市场上的零样本文本到语音(TTS)系统在情感、风格、口音和音色等方面的控制能力仍存在明显局限。尽管这些系统能够生成自然流畅的语音,却难以精准满足用户的个性化需求。传统研究试图通过增设编码器或构建复杂架构来分解这些控制因素,而 Step-Audio-EditX 则另辟蹊径,通过优化数据结构和训练目标实现精细化控制。

该模型创新性地采用双代码本标记器架构,将语音信号映射为两个互补的令牌流——一个以16.7Hz的速率记录语言信息,另一个以25Hz的速率捕捉语义特征。通过在包含文本和音频令牌的混合语料库上进行深度训练,模型实现了对双模态数据的无缝处理。其核心突破在于运用大边距学习方法,在后续训练阶段通过合成的高质量三元组和四元组数据集持续强化模型性能。
得益于约6万名说话者的海量高质量数据支持,Step-Audio-EditX 在情感表达和风格转换方面展现出卓越表现。模型还引入人类评分和偏好数据作为强化学习输入,进一步提升了语音生成的自然度和准确性。为全面评估模型效能,研究团队专门开发了 Step-Audio-Edit-Test 基准测试体系,并采用 Gemini2.5Pro 作为评判工具。

测试结果表明,经过多轮精细化编辑后,模型在情感表达和说话风格还原上的准确率实现了显著突破。更令人惊喜的是,Step-Audio-EditX 能够有效提升其他闭源TTS系统的音频输出质量,为音频编辑领域的研究开辟了全新路径。该模型的完整技术细节已发布在arXiv平台(https://arxiv.org/abs/2511.03601)。
🎤 StepFun AI 推出 Step-Audio-EditX 模型,使音频编辑更简便
📈 该模型采用大边距学习,提升情感和风格编辑的准确性
🔍 引入 Step-Audio-Edit-Test 基准,显著提升音频质量评估
