在人工智能浪潮席卷文本生成与图像生成领域之际,语音编辑技术仍面临着难以逾越的挑战——它始终未能实现像编辑文本那样直观便捷的操作体验。然而,近日StepFun AI推出的全新开源项目Step-Audio-EditX,正以革命性的方式重塑这一格局。该项目基于一个强大的30亿参数音频语言模型(Audio LLM),首次将复杂的语音编辑任务转化为类似文本标记级别的精细操作,彻底摆脱了传统波形信号处理的繁琐限制。根据团队在arXiv:2511.03601最新论文中的详细阐述,Step-Audio-EditX的核心愿景是让开发者能够”像修改文字一样,直接调整语音的情感起伏、语调变化、风格特征乃至呼吸声等细微元素”。

从”模仿声音”到”精准控制”的跨越

当前市场上的多数零样本TTS系统虽然能够从短参考音频中复制情感、口音和音色,实现自然流畅的语音输出,但往往缺乏足够的控制力。文本中的风格提示在这些系统中常常被忽视,特别是在跨语言、跨风格的复杂任务中,效果稳定性难以保证。Step-Audio-EditX另辟蹊径,摒弃了传统的解耦编码器结构,转而通过创新的数据组织方式和训练目标设定来突破可控性瓶颈。该模型通过学习大量文本内容相同但语音属性差异显著的语音对和三元组样本,掌握了在保持文本不变的前提下调整情感、风格和副语言信号的核心能力。

双码本分词与3B音频LLM架构

Step-Audio-EditX继承了Step-Audio项目的双码本分词器(Dual Codebook Tokenizer)设计:语言流采用16.7Hz采样率,包含1024个标记;语义流采用25Hz采样率,包含4096个标记。这两个流以2:3的比例交错排列,能够有效保留语音中的韵律和情感特征。在此基础上,研究团队构建了一个参数量达30亿的紧凑型音频语言模型。该模型以文本LLM为初始化基础,在包含文本和音频标记的混合语料库上进行训练(两者比例保持1:1)。模型能够同时处理文本或音频标记,并始终输出双码本标记序列。音频重建环节则由独立的解码器完成——扩散变换器流匹配模块负责预测梅尔频谱图,而BigVGANv2声码器则将其转化为最终的波形输出。整个模块经过20万小时高质量语音数据的训练,显著提升了音色和韵律的自然度。

Step-Audio-EditX开源模型:30亿参数音频LLM开启语音编辑新时代插图

大间隔学习与合成数据策略

Step-Audio-EditX的关键创新在于”大间隔学习”(Large Margin Learning)机制。模型在保持文本内容不变的前提下,通过三元组和四元组样本进行训练,学习在不同语音属性之间实现精准转换。团队使用了涵盖中、英、粤语和四川话的6万名说话人数据集,并构建了合成三元组来强化情感和风格控制。每组样本均由人工配音演员录制10秒语音片段,通过StepTTS系统生成中性与情感两个版本,再经过人工与模型的双重评分筛选,确保样本质量。对于副语言(如笑声、呼吸、填充停顿)的编辑,团队基于NVSpeech数据集,通过克隆和标注去除实现时域监督,无需额外边距模型即可实现精准控制。

SFT+PPO:让模型学会听懂指令

训练过程分为两个关键阶段:监督微调(SFT)和强化学习(PPO)。在SFT阶段,模型在统一的聊天格式中同时学习TTS和编辑任务;在PPO阶段,通过奖励机制优化模型对自然语言指令的响应能力。奖励模型基于SFT检查点初始化,使用Bradley-Terry损失在大间隔偏好对上进行训练,直接在标记级别计算奖励,无需解码波形。PPO阶段还结合KL惩罚项来平衡音质与偏差,确保输出效果既自然又符合指令要求。

Step-Audio-Edit-Test:AI评测标准为量化控制能力

Step-Audio-EditX开源模型:30亿参数音频LLM开启语音编辑新时代插图1

为了科学评估模型的控制能力,团队提出了Step-Audio-Edit-Test基准,采用Gemini2.5Pro作为评审模型,从情感、风格、副语言三个维度进行全面评估。结果显示:中文情感准确率从57.0%大幅提升至77.7%;风格准确率从41.6%提升至69.2%;英文结果表现同样优异。副语言编辑平均得分也从1.91跃升至2.89,已接近主流商业系统的水平。更令人惊喜的是,Step-Audio-EditX对闭源系统如GPT-4o mini TTS、ElevenLabs v2、豆包种子TTS2.0等均能带来显著性能提升。

Step-Audio-EditX:可控语音合成的革命性突破

Step-Audio-EditX代表了可控语音合成技术的一次真正跃迁。它放弃了传统的波形级信号操作,转而基于离散标记进行编辑,结合大间隔学习与强化优化,使语音编辑体验首次接近文本编辑的流畅度。在技术与开放性方面,StepFun AI选择了全堆栈开源策略,不仅公开模型权重,还提供完整的训练代码,极大地降低了语音编辑研究的门槛。这意味着未来开发者可以像修改文字一样,精准控制语音的情绪、语气与副语言特征,为语音合成领域开辟了无限可能。

项目资源:
– 项目地址: https://stepaudiollm.github.io/step-audio-editx/
– 论文: https://arxiv.org/pdf/2511.03601
– GitHub: https://github.com/stepfun-ai/Step-Audio-EditX
– 在线体验: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

最新快讯

2025年11月10日

15:13
2025年双11迎来了它的17岁生日,如同人生从青少年步入青年阶段,这个购物节正以全新的姿态焕发活力。许多人曾预测今年的双11将趋于平淡,但星图数据显示截至10月31日,全网累计销售额已突破10026亿元人民币,展现出惊人的增长势头。天猫稳居综合电商平台榜首,京东紧随其后,抖音位列第三。这一迅猛的增长曲线预示着,今年的双11将超越以往任何时间节点,对消费市场...
15:13
微新创想11月10日讯 OPPO Reno15系列正式官宣发布日期,定于11月17日举行新品发布会。此次发布会不仅揭示了新机的外观设计,更同步公开了代言人宋雨琦的专属海报,全方位展示星光蝴蝶结、极光蓝、可露丽棕、蜜糖金四款惊艳配色。宋雨琦以这四款特色配色精心打造了四套秋冬OOTD,分别为运动芭蕾风、灵动酷飒系、Miu系氛围感与复古巴恩风,为用户带来视觉与时尚...
15:13
特斯拉股东近日以压倒性优势批准了埃隆・马斯克提出的价值高达千亿美元的新薪酬方案,这一事件引发了广泛关注。然而,在公众视线尚未完全从这一商业决策中移开之际,马斯克通过其公司xAI推出的Grok Imagine工具,突然发布了两段极具争议的AI生成视频,迅速将话题引向了科技与艺术的模糊地带。 其中一段视频描绘了一位动画女性在雨中深情告白的场景,画面唯美却透着莫名...
15:13
专注严重精神疾病综合护理的科技公司Amae Health近日宣布成功斩获2500万美元B轮融资,该轮融资由知名风险投资机构Altos Ventures强势领投,同时吸引了Quiet Capital、Bling Capital、Cedars-Sinai Ventures、Healthier Capital以及8VC等众多现有投资方的热烈跟投。这一重要里程碑不仅...
15:13
OPPO今日正式官宣,备受瞩目的Reno15系列手机将于11月17日19:00举行盛大的线上发布会,并首次公开了以"星光蝴蝶结"为核心元素的全新外观设计。这一创新设计不仅彰显了产品的独特魅力,更预示着系列将带来前所未有的视觉体验。据悉,该系列手机将采用行业首创的全息光刻工艺,配合1.15mm极窄四等边直屏与质感金属中框,通过一体冷雕玻璃工艺精心打造出四款各具...
15:13
易澄新能近日成功斩获数千万级第二轮融资,彰显了其在新能源领域的强劲发展势头。本次融资由上海张江科投旗下张科垚坤基金强势领投,翌昕投资与蜂鸟中试基金紧随其后参与投资,而老股东麟阁创投也再次追加战略投资,共同助力易澄新能的创新发展。 作为一家专注于多场景应用的新能源科技企业,易澄新能凭借其超轻质、高透明的有机光伏(OPV)技术,在建筑、汽车、农业及智能穿戴等...
15:13
11月10日12时02分,星河动力航天谷神星一号(遥十九)运载火箭在酒泉卫星发射中心成功点火升空,万众瞩目下展开了一场探索太空的壮丽征程。然而,在火箭飞行末段突遇异常情况,导致发动机提前关闭,最终未能将卫星送入预定轨道。这一意外事件虽然令人遗憾,但星河动力航天已迅速启动全面的故障分析工作,并向任务客户及社会各界郑重致歉。 面对此次挑战,星河动力航天表示将秉持...
15:13
《纽约时报》最新报道揭示了一项令人震惊的天文发现:星际天体3I/ATLAS近期被观测到释放出至少七道极其复杂的喷流结构,其中部分喷流甚至形成了罕见的“反彗尾”现象。这一天体在接近近日点时表现出惊人的亮度变化,其光芒骤然增强,颜色也显著转变为蓝色,彗发延伸范围更是达到了令人难以置信的50万公里。 哈佛大学著名天体物理学家阿维·勒布对此现象提出了独到见解。他认为...
15:13
珺澄药业近日以1.26亿元人民币的成交价成功摘牌,正式完成对金太阳生化药业的全资收购。随着此次交易的落定,金种子酒正式从医药行业全面撤出,其持有的金太阳药业所有股权已悉数清零,标志着这家知名白酒企业彻底告别医药领域 金太阳生化药业作为一家专注于药品研发与生产的现代化企业,其产品线覆盖片剂、小容量注射剂、硬胶囊剂及原料药等多个剂型,形成了完善的产品矩阵。其...
15:13
清思智能近日成功斩获亿元人民币A+轮融资,此次投资由鼎晖VGC独家领投,标志着该创新企业在人工智能领域获得重要资本支持。作为成立于2023年的新兴科技企业,清思智能依托清华大学电子工程系在Re-id技术领域多年的深厚积累,专注于打造城市级视觉认知解决方案。 通过创新性地融合AI大小模型混合应用技术,清思智能能够充分挖掘现有普通监控设备的潜力,构建出高效智...
15:13
易澄新能源作为超轻质透明有机光伏技术的领军企业,近日成功完成种子轮融资,麟阁创投领投。这家专注于有机光伏(OPV)技术研发的创新公司,凭借其突破性的技术优势,正引领着绿色能源革命的新浪潮。易澄新能源的核心技术突破在于开发出兼具高效、柔性、环保特性的OPV材料,这种材料不仅重量极轻,透明度极高,更在环保性能上表现卓越,为传统光伏产业注入了全新活力。 公司的发展...
15:13
Quantinuum作为全球领先的量子计算企业,近日正式获得美国国防高级研究计划局(DARPA)的认证,成功晋级备受瞩目的量子基准计划B阶段。这一重要里程碑不仅彰显了Quantinuum在量子计算领域的卓越实力,更标志着其向实用级量子计算机研发目标迈出了关键一步。据悉,量子基准计划的核心目标是在2033年前验证实用级量子计算机的技术可行性,为未来军事及科技应...