腾讯 ARC 团队近日重磅推出一款创新模型——AudioStory,专注于利用大语言模型(LLMs)生成长篇叙事音频内容。这一突破性模型精准解决了当前文本到音频生成技术在处理短音频时展现的优势,与长篇叙事音频在时间连贯性和组合推理上面临的挑战之间的矛盾。AudioStory 的核心创新在于其统一且高效的理解与生成框架,使其能够胜任视频配音、音频延续以及长篇叙事音频合成等多种复杂任务。通过将大语言模型与先进的音频生成系统深度融合,AudioStory 能够创作出结构严谨且时间逻辑一致的高质量音频叙事作品。
该模型最突出的能力在于其卓越的指令跟随推理生成机制。面对复杂的叙事查询,AudioStory 能够将其智能分解为按时间顺序排列的子任务序列,并在执行过程中始终保持场景转换的流畅性与情感基调的统一性,从而确保叙事的完整性和感染力。AudioStory 的两大技术亮点尤为引人注目:首先,其创新的去耦合桥接机制,有效将大语言模型与音频生成器之间的协作划分为两个专业化的独立模块,大幅提升了系统运行效率;其次,采用端到端的统一训练方式,实现了指令理解与音频生成的无缝衔接,显著增强了各组件之间的协同效应。
为验证模型性能,研究团队精心构建了 AudioStory-10K 基准数据集,该数据集全面覆盖了动画音景、自然声音叙事等多元化领域,为模型的训练与评估提供了丰富的素材支撑。经过大量严谨的实验验证,AudioStory 在单音频生成和叙事音频生成两大关键指标上均超越了以往的文本到音频生成模型,展现出超凡的指令跟随能力和令人赞叹的音频质量。目前,团队已慷慨分享模型的推理代码,并制作了一系列直观的演示视频,其中包括经典动画《猫和老鼠》的精准配音示例,以及基于文本自动生成长篇音频的应用案例,生动展示了该模型在视频配音和长音频生成领域的广泛适用性和强大功能。
项目地址:https://github.com/TencentARC/AudioStory
划重点:
🎧 **AudioStory 是腾讯 ARC 推出的长篇叙事音频生成模型,结合了大语言模型和音频生成技术。**
📊 ** 模型具有强大的指令跟随能力,能够生成连贯的音频叙事,显著提升用户体验。**
🛠️ ** 团队已发布推理代码,并展示多个应用案例,充分展现其在视频配音和长音频生成上的卓越优势。**