在人工智能浪潮席卷文本生成与图像生成领域之际,语音编辑技术仍面临着难以逾越的挑战——它始终未能实现像编辑文本那样直观便捷的操作体验。然而,近日StepFun AI推出的全新开源项目Step-Audio-EditX,正以革命性的方式重塑这一格局。该项目基于一个强大的30亿参数音频语言模型(Audio LLM),首次将复杂的语音编辑任务转化为类似文本标记级别的精细操作,彻底摆脱了传统波形信号处理的繁琐限制。根据团队在arXiv:2511.03601最新论文中的详细阐述,Step-Audio-EditX的核心愿景是让开发者能够”像修改文字一样,直接调整语音的情感起伏、语调变化、风格特征乃至呼吸声等细微元素”。
从”模仿声音”到”精准控制”的跨越
当前市场上的多数零样本TTS系统虽然能够从短参考音频中复制情感、口音和音色,实现自然流畅的语音输出,但往往缺乏足够的控制力。文本中的风格提示在这些系统中常常被忽视,特别是在跨语言、跨风格的复杂任务中,效果稳定性难以保证。Step-Audio-EditX另辟蹊径,摒弃了传统的解耦编码器结构,转而通过创新的数据组织方式和训练目标设定来突破可控性瓶颈。该模型通过学习大量文本内容相同但语音属性差异显著的语音对和三元组样本,掌握了在保持文本不变的前提下调整情感、风格和副语言信号的核心能力。
双码本分词与3B音频LLM架构
Step-Audio-EditX继承了Step-Audio项目的双码本分词器(Dual Codebook Tokenizer)设计:语言流采用16.7Hz采样率,包含1024个标记;语义流采用25Hz采样率,包含4096个标记。这两个流以2:3的比例交错排列,能够有效保留语音中的韵律和情感特征。在此基础上,研究团队构建了一个参数量达30亿的紧凑型音频语言模型。该模型以文本LLM为初始化基础,在包含文本和音频标记的混合语料库上进行训练(两者比例保持1:1)。模型能够同时处理文本或音频标记,并始终输出双码本标记序列。音频重建环节则由独立的解码器完成——扩散变换器流匹配模块负责预测梅尔频谱图,而BigVGANv2声码器则将其转化为最终的波形输出。整个模块经过20万小时高质量语音数据的训练,显著提升了音色和韵律的自然度。

大间隔学习与合成数据策略
Step-Audio-EditX的关键创新在于”大间隔学习”(Large Margin Learning)机制。模型在保持文本内容不变的前提下,通过三元组和四元组样本进行训练,学习在不同语音属性之间实现精准转换。团队使用了涵盖中、英、粤语和四川话的6万名说话人数据集,并构建了合成三元组来强化情感和风格控制。每组样本均由人工配音演员录制10秒语音片段,通过StepTTS系统生成中性与情感两个版本,再经过人工与模型的双重评分筛选,确保样本质量。对于副语言(如笑声、呼吸、填充停顿)的编辑,团队基于NVSpeech数据集,通过克隆和标注去除实现时域监督,无需额外边距模型即可实现精准控制。
SFT+PPO:让模型学会听懂指令
训练过程分为两个关键阶段:监督微调(SFT)和强化学习(PPO)。在SFT阶段,模型在统一的聊天格式中同时学习TTS和编辑任务;在PPO阶段,通过奖励机制优化模型对自然语言指令的响应能力。奖励模型基于SFT检查点初始化,使用Bradley-Terry损失在大间隔偏好对上进行训练,直接在标记级别计算奖励,无需解码波形。PPO阶段还结合KL惩罚项来平衡音质与偏差,确保输出效果既自然又符合指令要求。
Step-Audio-Edit-Test:AI评测标准为量化控制能力

为了科学评估模型的控制能力,团队提出了Step-Audio-Edit-Test基准,采用Gemini2.5Pro作为评审模型,从情感、风格、副语言三个维度进行全面评估。结果显示:中文情感准确率从57.0%大幅提升至77.7%;风格准确率从41.6%提升至69.2%;英文结果表现同样优异。副语言编辑平均得分也从1.91跃升至2.89,已接近主流商业系统的水平。更令人惊喜的是,Step-Audio-EditX对闭源系统如GPT-4o mini TTS、ElevenLabs v2、豆包种子TTS2.0等均能带来显著性能提升。
Step-Audio-EditX:可控语音合成的革命性突破
Step-Audio-EditX代表了可控语音合成技术的一次真正跃迁。它放弃了传统的波形级信号操作,转而基于离散标记进行编辑,结合大间隔学习与强化优化,使语音编辑体验首次接近文本编辑的流畅度。在技术与开放性方面,StepFun AI选择了全堆栈开源策略,不仅公开模型权重,还提供完整的训练代码,极大地降低了语音编辑研究的门槛。这意味着未来开发者可以像修改文字一样,精准控制语音的情绪、语气与副语言特征,为语音合成领域开辟了无限可能。
项目资源:
– 项目地址: https://stepaudiollm.github.io/step-audio-editx/
– 论文: https://arxiv.org/pdf/2511.03601
– GitHub: https://github.com/stepfun-ai/Step-Audio-EditX
– 在线体验: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX
