在人工智能浪潮席卷文本生成与图像生成领域之际,语音编辑技术仍面临着难以逾越的挑战——它始终未能实现像编辑文本那样直观便捷的操作体验。然而,近日StepFun AI推出的全新开源项目Step-Audio-EditX,正以革命性的方式重塑这一格局。该项目基于一个强大的30亿参数音频语言模型(Audio LLM),首次将复杂的语音编辑任务转化为类似文本标记级别的精细操作,彻底摆脱了传统波形信号处理的繁琐限制。根据团队在arXiv:2511.03601最新论文中的详细阐述,Step-Audio-EditX的核心愿景是让开发者能够”像修改文字一样,直接调整语音的情感起伏、语调变化、风格特征乃至呼吸声等细微元素”。

从”模仿声音”到”精准控制”的跨越

当前市场上的多数零样本TTS系统虽然能够从短参考音频中复制情感、口音和音色,实现自然流畅的语音输出,但往往缺乏足够的控制力。文本中的风格提示在这些系统中常常被忽视,特别是在跨语言、跨风格的复杂任务中,效果稳定性难以保证。Step-Audio-EditX另辟蹊径,摒弃了传统的解耦编码器结构,转而通过创新的数据组织方式和训练目标设定来突破可控性瓶颈。该模型通过学习大量文本内容相同但语音属性差异显著的语音对和三元组样本,掌握了在保持文本不变的前提下调整情感、风格和副语言信号的核心能力。

双码本分词与3B音频LLM架构

Step-Audio-EditX继承了Step-Audio项目的双码本分词器(Dual Codebook Tokenizer)设计:语言流采用16.7Hz采样率,包含1024个标记;语义流采用25Hz采样率,包含4096个标记。这两个流以2:3的比例交错排列,能够有效保留语音中的韵律和情感特征。在此基础上,研究团队构建了一个参数量达30亿的紧凑型音频语言模型。该模型以文本LLM为初始化基础,在包含文本和音频标记的混合语料库上进行训练(两者比例保持1:1)。模型能够同时处理文本或音频标记,并始终输出双码本标记序列。音频重建环节则由独立的解码器完成——扩散变换器流匹配模块负责预测梅尔频谱图,而BigVGANv2声码器则将其转化为最终的波形输出。整个模块经过20万小时高质量语音数据的训练,显著提升了音色和韵律的自然度。

Step-Audio-EditX开源模型:30亿参数音频LLM开启语音编辑新时代插图

大间隔学习与合成数据策略

Step-Audio-EditX的关键创新在于”大间隔学习”(Large Margin Learning)机制。模型在保持文本内容不变的前提下,通过三元组和四元组样本进行训练,学习在不同语音属性之间实现精准转换。团队使用了涵盖中、英、粤语和四川话的6万名说话人数据集,并构建了合成三元组来强化情感和风格控制。每组样本均由人工配音演员录制10秒语音片段,通过StepTTS系统生成中性与情感两个版本,再经过人工与模型的双重评分筛选,确保样本质量。对于副语言(如笑声、呼吸、填充停顿)的编辑,团队基于NVSpeech数据集,通过克隆和标注去除实现时域监督,无需额外边距模型即可实现精准控制。

SFT+PPO:让模型学会听懂指令

训练过程分为两个关键阶段:监督微调(SFT)和强化学习(PPO)。在SFT阶段,模型在统一的聊天格式中同时学习TTS和编辑任务;在PPO阶段,通过奖励机制优化模型对自然语言指令的响应能力。奖励模型基于SFT检查点初始化,使用Bradley-Terry损失在大间隔偏好对上进行训练,直接在标记级别计算奖励,无需解码波形。PPO阶段还结合KL惩罚项来平衡音质与偏差,确保输出效果既自然又符合指令要求。

Step-Audio-Edit-Test:AI评测标准为量化控制能力

Step-Audio-EditX开源模型:30亿参数音频LLM开启语音编辑新时代插图1

为了科学评估模型的控制能力,团队提出了Step-Audio-Edit-Test基准,采用Gemini2.5Pro作为评审模型,从情感、风格、副语言三个维度进行全面评估。结果显示:中文情感准确率从57.0%大幅提升至77.7%;风格准确率从41.6%提升至69.2%;英文结果表现同样优异。副语言编辑平均得分也从1.91跃升至2.89,已接近主流商业系统的水平。更令人惊喜的是,Step-Audio-EditX对闭源系统如GPT-4o mini TTS、ElevenLabs v2、豆包种子TTS2.0等均能带来显著性能提升。

Step-Audio-EditX:可控语音合成的革命性突破

Step-Audio-EditX代表了可控语音合成技术的一次真正跃迁。它放弃了传统的波形级信号操作,转而基于离散标记进行编辑,结合大间隔学习与强化优化,使语音编辑体验首次接近文本编辑的流畅度。在技术与开放性方面,StepFun AI选择了全堆栈开源策略,不仅公开模型权重,还提供完整的训练代码,极大地降低了语音编辑研究的门槛。这意味着未来开发者可以像修改文字一样,精准控制语音的情绪、语气与副语言特征,为语音合成领域开辟了无限可能。

项目资源:
– 项目地址: https://stepaudiollm.github.io/step-audio-editx/
– 论文: https://arxiv.org/pdf/2511.03601
– GitHub: https://github.com/stepfun-ai/Step-Audio-EditX
– 在线体验: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

最新快讯

2025年11月10日

13:38
2025年11月10日,教育部正式印发专项通知,全面部署新一轮中小学教师减负行动,旨在切实减轻教师非教育教学负担,让教师能够更专注于教学本职工作。此次减负行动聚焦八大关键领域,推出了一系列精准有效的措施,包括建立涉校发文审核机制,从源头上控制行政文件数量;规范督查检查评比考核清单,避免多头检查和重复考核;实行社会事务进校园白名单制度,明确可进入校园的社会服务...
13:38
2025年11月10日,中国移动旗下基金正式宣布参与新石器无人车D轮融资,并在产业投资合作活动中明确双方将深化生态合作战略。此次合作不仅涉及资本层面的战略投资,更将推动业务协同的深度融合。双方已就AI技术与自动驾驶技术的创新融合、代理合作模式以及城市物流场景定制化无人车的联合开发达成重要共识。此次合作的核心目标在于加速无人驾驶技术在城市物流领域的实际应用,通...
13:38
康诺思腾作为手术机器人领域的创新先锋企业,近日传来振奋人心的消息——成功完成总额约2亿美元的超募融资。这一里程碑式的事件吸引了众多重量级投资者的目光,包括香港投资管理有限公司、一家全球战略级战略投资者以及多家顶级主权基金的鼎力支持,同时启明创投等现有投资者也持续加码,展现了市场对该企业未来发展的坚定信心。 经过多年的技术攻关与产业化布局,康诺思腾已成功构建起...
13:38
星能玄光近日成功斩获数亿元人民币Pre-A轮巨额融资,这场备受瞩目的资本运作由行业巨头蚂蚁集团强势领投,隐山资本、紫金矿业等知名机构跟投,彼岸时代、心资本、元禾璞华、联美控股、鼎和高达等实力投资者也积极参与其中。值得注意的是,老股东民银国际与仁发新能继续展现对公司的坚定信心,选择持续加码投资。作为下一代聚变能源技术的领跑者,星能玄光始终聚焦于以"场反磁镜"技...
13:04
近日,人形机器人领域的AI技术领军企业灵启万物成功斩获天使轮融资,投资方阵容强大,涵盖元禾原点、英诺天使基金、元生创投以及MSA Venture等知名机构。此次融资不仅为灵启万物注入强劲动力,更彰显了资本市场对人形机器人技术的热切关注与坚定信心。 作为专注于人形机器人AI技术研发的创新企业,灵启万物始终致力于将前沿的智能算法应用于机器人领域,通过持续的技...
13:04
我国在海南商业航天发射场圆满完成长征十二号运载火箭发射任务,成功将13组卫星互联网低轨星座送入预定轨道。此次发射标志着长征十二号运载火箭完成第三次飞行任务,同时也是我国长征系列运载火箭的第607次飞行,彰显了我国航天事业的蓬勃发展态势。 作为我国首款4米级单芯级运载火箭,长征十二号展现出卓越的近地轨道运载能力,可搭载12吨有效载荷。该火箭首次创新性地采用了"...
12:34
中国消费者协会倾力打造的“消费查”平台自2025年5月正式开启试运行以来,已迅速汇聚全国近20万家线下无理由退货商家,服务网络全面覆盖31个省级行政区。作为一款依托微信小程序的智能查询工具,“消费查”为消费者提供了前所未有的便捷退货服务体验。平台不仅支持家用电器、服装鞋帽等十一大类商品的退货查询,更将退货期限创新性地延长至最长一年,充分保障了消费者的权益。 ...
12:34
2025年11月10日,银行业迎来了一则引人注目的消息——多家银行突然宣布将关停旗下部分移动应用程序,这一举措迅速在金融科技领域掀起波澜。据透露,此次调整的重点主要集中在信用卡业务相关的独立App以及直销银行类应用上。这一决策并非空穴来风,而是银行业在数字化转型深入发展过程中,面对多重挑战所做出的战略调整。 早在移动互联网发展的初期,为了快速抢占市场份额,各...
12:34
11月10日12时左右,日本岩手县以东海域突发5.3级地震,引发广泛关注。日本气象厅最新监测数据显示,此次地震震源深度仅为10公里,属于浅源地震,最大震感达到震度3的级别。值得庆幸的是,根据官方评估,此次地震未形成海啸风险,目前尚未收到任何人员伤亡或财产损失的报告,社会秩序总体保持稳定。 地震发生后,日本相关部门立即启动应急响应机制,第一时间对灾区进行科学评...
12:34
2025年11月3日至9日,中国铁路运输系统展现出强劲的发展势头,累计完成货物吞吐量高达8166万吨,环比增长3.94%,这一数据充分体现了铁路运输在国民经济中的核心地位。与此同时,全国高速公路货车通行量出现小幅波动,环比下降2.06%,反映出公路运输需求有所放缓。在港口领域,监测数据显示货物吞吐量下降5.34%,但集装箱吞吐量却实现了微增0.58%,这一反...
12:34
我国第42次南极考察队于11月1日启程,标志着又一年的极地科考征程正式拉开帷幕。作为此次行动的核心载体,"雪龙"号和"雪龙2"号科考船已成功突破赤道这一重要地理分界线,展现了我国极地科考船队的强大续航能力和先进性能。此次考察规模空前,汇聚了国内外500余名顶尖科研人员,阵容堪称豪华,涵盖了冰川学、海洋学、地质学等多个领域的专家学者,共同擘画南极科考的新篇章。...
12:34
飞智黑武士5 Pro游戏手柄重磅问世,为玩家带来前所未有的操控革新体验。这款新一代游戏外设在操控精准度与响应速度上实现了全面突破,重新定义了游戏手柄的性能标准。 新品采用创新的力切换杠杆原理设计,扳机结构特别新增传力弹片技术。这一突破性改进有效消除了传统手柄常见的虚位问题,显著提升了触发响应的精准度与灵敏度。同时泄力行程的精心设计,大幅缓解了长时间游戏带来的...