阿里通义实验室于3月16日正式发布并开源了影视级多场景配音多模态大模型 Fun-CineForge。该模型旨在解决 AI 配音中长期存在的口型不同步、情感表达缺失以及多角色音色不一致等核心痛点,并同步开放了高质量数据集构建方法。

在技术架构上,Fun-CineForge 首次引入了“时间模态”概念。不同于传统模型仅关注文本或视觉信息,该模型通过精准的时间戳控制,确保语音在正确的时间区间内合成。即便在画面中人物被遮挡、镜头频繁切换或面部模糊的复杂影视场景下,模型依然能实现极高的音画同步率和指令遵循能力。
配套开源的 CineDub 数据集构建流程则是另一大亮点。通义实验室利用大模型思维链技术,将原始影视素材自动化转化为结构化数据,大幅降低了人工标注成本。数据显示,该流程将中英文字错率降低至1% 左右,说话人分离错误率仅为1.20%,为大模型提供了极具竞争力的训练基石。

目前,Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社区同步上线,支持30秒以内的短视频片段推理。它不仅在单人独白场景下表现优异,还率先实现了对双人及多人对话场景的专业级支持。这一突破标志着 AI 语音技术正从基础的客服、助手场景,向高标准的动漫、影视后期制作领域迈进。
-
GitHub:https://github.com/FunAudioLLM/FunCineForge
-
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
-
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
