腾讯ARC开源AudioStory模型用大语言生成长音频叙事

2025-09-01 10:14:07 AI动态 117 次阅读

腾讯 ARC 团队近日重磅推出一款创新模型——AudioStory，专注于利用大语言模型（LLMs）生成长篇叙事音频内容。这一突破性模型精准解决了当前文本到音频生成技术在处理短音频时展现的优势，与长篇叙事音频在时间连贯性和组合推理上面临的挑战之间的矛盾。AudioStory 的核心创新在于其统一且高效的理解与生成框架，使其能够胜任视频配音、音频延续以及长篇叙事音频合成等多种复杂任务。通过将大语言模型与先进的音频生成系统深度融合，AudioStory 能够创作出结构严谨且时间逻辑一致的高质量音频叙事作品。

该模型最突出的能力在于其卓越的指令跟随推理生成机制。面对复杂的叙事查询，AudioStory 能够将其智能分解为按时间顺序排列的子任务序列，并在执行过程中始终保持场景转换的流畅性与情感基调的统一性，从而确保叙事的完整性和感染力。AudioStory 的两大技术亮点尤为引人注目：首先，其创新的去耦合桥接机制，有效将大语言模型与音频生成器之间的协作划分为两个专业化的独立模块，大幅提升了系统运行效率；其次，采用端到端的统一训练方式，实现了指令理解与音频生成的无缝衔接，显著增强了各组件之间的协同效应。

为验证模型性能，研究团队精心构建了 AudioStory-10K 基准数据集，该数据集全面覆盖了动画音景、自然声音叙事等多元化领域，为模型的训练与评估提供了丰富的素材支撑。经过大量严谨的实验验证，AudioStory 在单音频生成和叙事音频生成两大关键指标上均超越了以往的文本到音频生成模型，展现出超凡的指令跟随能力和令人赞叹的音频质量。目前，团队已慷慨分享模型的推理代码，并制作了一系列直观的演示视频，其中包括经典动画《猫和老鼠》的精准配音示例，以及基于文本自动生成长篇音频的应用案例，生动展示了该模型在视频配音和长音频生成领域的广泛适用性和强大功能。

项目地址：https://github.com/TencentARC/AudioStory

划重点：
🎧 **AudioStory 是腾讯 ARC 推出的长篇叙事音频生成模型，结合了大语言模型和音频生成技术。**
📊 ** 模型具有强大的指令跟随能力，能够生成连贯的音频叙事，显著提升用户体验。**
🛠️ ** 团队已发布推理代码，并展示多个应用案例，充分展现其在视频配音和长音频生成上的卓越优势。**

2026年01月14日

12:50

腾讯ARC开源AudioStory模型用大语言生成长音频叙事

最新快讯

2026年01月14日

中国发布首个高精度月球时间历表

英特尔至强698X曝光：86核172线程

技嘉发布AI沉浸式体验新愿景

视觉中国携手清蓝AI 共创智能营销新生态

第六批高值耗材集采开标 202家企业中选

美团全资控股娄底摩骑科技拓展本地生活服务布局

淘宝年终采购节开启至2月11日

炯诚新材获A轮融资湘投高创投投资

海南离岛免税额超38亿同比激增近50%

Converge获2500万美元A轮融资 AI新药研发服务商加速平台迭代

亚马逊智能插座王转战速卖通

Ahead Health获600万美元种子轮融资

腾讯ARC开源AudioStory模型 用大语言生成长音频叙事

最新快讯

2026年01月14日

腾讯ARC开源AudioStory模型用大语言生成长音频叙事