StepFun AI 近期宣布开源其革命性的音频编辑模型 Step-Audio-EditX,这一创新的3B参数模型将复杂的音频编辑操作简化为如同文本编辑般的直观体验。通过将音频信号处理转化为逐字的令牌化操作,Step-Audio-EditX 让富有表现力的语音编辑变得触手可及。

当前市场上的零样本文本到语音(TTS)系统在情感、风格、口音和音色等方面的控制能力仍存在明显局限。尽管这些系统能够生成自然流畅的语音,却难以精准满足用户的个性化需求。传统研究试图通过增设编码器或构建复杂架构来分解这些控制因素,而 Step-Audio-EditX 则另辟蹊径,通过优化数据结构和训练目标实现精细化控制。

StepFun AI开源音频编辑模型Step-Audio-EditX,实现高效精准音频编辑插图

该模型创新性地采用双代码本标记器架构,将语音信号映射为两个互补的令牌流——一个以16.7Hz的速率记录语言信息,另一个以25Hz的速率捕捉语义特征。通过在包含文本和音频令牌的混合语料库上进行深度训练,模型实现了对双模态数据的无缝处理。其核心突破在于运用大边距学习方法,在后续训练阶段通过合成的高质量三元组和四元组数据集持续强化模型性能。

得益于约6万名说话者的海量高质量数据支持,Step-Audio-EditX 在情感表达和风格转换方面展现出卓越表现。模型还引入人类评分和偏好数据作为强化学习输入,进一步提升了语音生成的自然度和准确性。为全面评估模型效能,研究团队专门开发了 Step-Audio-Edit-Test 基准测试体系,并采用 Gemini2.5Pro 作为评判工具。

StepFun AI开源音频编辑模型Step-Audio-EditX,实现高效精准音频编辑插图1

测试结果表明,经过多轮精细化编辑后,模型在情感表达和说话风格还原上的准确率实现了显著突破。更令人惊喜的是,Step-Audio-EditX 能够有效提升其他闭源TTS系统的音频输出质量,为音频编辑领域的研究开辟了全新路径。该模型的完整技术细节已发布在arXiv平台(https://arxiv.org/abs/2511.03601)。

🎤 StepFun AI 推出 Step-Audio-EditX 模型,使音频编辑更简便
📈 该模型采用大边距学习,提升情感和风格编辑的准确性
🔍 引入 Step-Audio-Edit-Test 基准,显著提升音频质量评估

最新快讯

2025年11月10日

13:04
近日,专注于人形机器人领域的AI技术研发商灵启万物宣布完成天使轮融资,投资方包括元禾原点、英诺天使基金、元生创投和MSA Venture。本轮资金将用于深化AI技术在人形机器人领域的研发与应用,推动智能机器人技术的创新突破。该公司致力于通过先进的人工智能算法,提升机器人的环境感知与自主决策能力,为智能制造与服务行业提供更高效的解决方案。
13:04
我国在海南商业航天发射场使用长征十二号运载火箭,成功将卫星互联网低轨13组卫星送入预定轨道。此次发射是长征十二号第三次执行任务,也是我国长征系列运载火箭的第607次飞行。作为我国首款4米级单芯级运载火箭,长征十二号近地轨道运载能力达12吨,首次采用"零窗口"发射技术。通过优化射前流程和标准化授时设备,实现了电气流程自动化控制,显著提升了发射精度,为卫星精准...
12:34
中国消费者协会倾力打造的“消费查”平台自2025年5月正式开启试运行以来,已迅速汇聚全国近20万家线下无理由退货商家,服务网络全面覆盖31个省级行政区。作为一款依托微信小程序的智能查询工具,“消费查”为消费者提供了前所未有的便捷退货服务体验。平台不仅支持家用电器、服装鞋帽等十一大类商品的退货查询,更将退货期限创新性地延长至最长一年,充分保障了消费者的权益。 ...
12:34
2025年11月10日,银行业迎来了一则引人注目的消息——多家银行突然宣布将关停旗下部分移动应用程序,这一举措迅速在金融科技领域掀起波澜。据透露,此次调整的重点主要集中在信用卡业务相关的独立App以及直销银行类应用上。这一决策并非空穴来风,而是银行业在数字化转型深入发展过程中,面对多重挑战所做出的战略调整。 早在移动互联网发展的初期,为了快速抢占市场份额,各...
12:34
11月10日12时左右,日本岩手县以东海域突发5.3级地震,引发广泛关注。日本气象厅最新监测数据显示,此次地震震源深度仅为10公里,属于浅源地震,最大震感达到震度3的级别。值得庆幸的是,根据官方评估,此次地震未形成海啸风险,目前尚未收到任何人员伤亡或财产损失的报告,社会秩序总体保持稳定。 地震发生后,日本相关部门立即启动应急响应机制,第一时间对灾区进行科学评...
12:34
2025年11月3日至9日,中国铁路运输系统展现出强劲的发展势头,累计完成货物吞吐量高达8166万吨,环比增长3.94%,这一数据充分体现了铁路运输在国民经济中的核心地位。与此同时,全国高速公路货车通行量出现小幅波动,环比下降2.06%,反映出公路运输需求有所放缓。在港口领域,监测数据显示货物吞吐量下降5.34%,但集装箱吞吐量却实现了微增0.58%,这一反...
12:34
我国第42次南极考察队于11月1日启程,标志着又一年的极地科考征程正式拉开帷幕。作为此次行动的核心载体,"雪龙"号和"雪龙2"号科考船已成功突破赤道这一重要地理分界线,展现了我国极地科考船队的强大续航能力和先进性能。此次考察规模空前,汇聚了国内外500余名顶尖科研人员,阵容堪称豪华,涵盖了冰川学、海洋学、地质学等多个领域的专家学者,共同擘画南极科考的新篇章。...
12:34
飞智黑武士5 Pro游戏手柄重磅问世,为玩家带来前所未有的操控革新体验。这款新一代游戏外设在操控精准度与响应速度上实现了全面突破,重新定义了游戏手柄的性能标准。 新品采用创新的力切换杠杆原理设计,扳机结构特别新增传力弹片技术。这一突破性改进有效消除了传统手柄常见的虚位问题,显著提升了触发响应的精准度与灵敏度。同时泄力行程的精心设计,大幅缓解了长时间游戏带来的...
12:33
2025年11月10日,中国物流领域迎来历史性突破——华鹏飞股份有限公司成功执行了中国首次经第三国哈萨克斯坦的跨境电商TIR货运发运任务。这辆满载上万种品类9610电商货物的重卡,在哈萨克斯坦努尔绕尔顺利完成转关手续,为“TIR+跨境电商”这一创新模式的发展奠定了坚实基础。此次成功实践不仅标志着该模式取得重大突破,更彰显了中国与哈萨克斯坦海关及国际道路运输联...
12:33
2025年11月7日,中国证监会正式批准内蒙古双欣环保材料股份有限公司的首次公开发行股票注册申请,标志着这家聚乙烯醇(PVA)全产业链领军企业即将登陆深圳证券交易所主板市场。根据公告,双欣环保计划发行不超过2.87亿股股票,为资本市场注入新的活力。 作为国内PVA行业的佼佼者,双欣环保凭借其全产业链的高新技术企业定位,在聚乙烯醇、电石以及特种纤维等领域展现出...
12:33
日本新潟县一家大型养鸡场于9日紧急宣布爆发高致病性禽流感疫情,为防止病毒扩散已启动全面扑杀行动,涉及约28万只健康鸡只。这是继本季度前三次疫情后,日本再次遭遇的严峻禽流感挑战,截至目前全国累计影响禽类数量已突破150万只大关。 此次疫情爆发正值日本鸡蛋市场承压之际。受国际饲料价格持续上涨及夏季高温导致产蛋率下降的双重因素影响,日本鸡蛋价格已连续三个月保持高位...
12:33
2025年11月10日,南京航空航天大学教授朱孔军团队传来重大突破,成功研发出一种新型碳纤维结构超级电容器,这一创新技术有望彻底改变无人机能源系统,实现"机身即电池"的革命性构想。该研究成果将储能单元与机身结构完美融合,通过优化材料配比和结构设计,显著提升了能量密度和承载效率,为长期困扰无人机领域的续航能力与载重性能难以平衡的难题提供了理想解决方案。这一突破...