阿里通义发布 Fun-CineForge：开源影视级配音大模型，攻克音画同步难题

2026-03-16 17:03:32 AI动态 3 次阅读

阿里通义实验室于3月16日正式发布并开源了影视级多场景配音多模态大模型 Fun-CineForge。该模型旨在解决 AI 配音中长期存在的口型不同步、情感表达缺失以及多角色音色不一致等核心痛点，并同步开放了高质量数据集构建方法。

在技术架构上，Fun-CineForge 首次引入了“时间模态”概念。不同于传统模型仅关注文本或视觉信息，该模型通过精准的时间戳控制，确保语音在正确的时间区间内合成。即便在画面中人物被遮挡、镜头频繁切换或面部模糊的复杂影视场景下，模型依然能实现极高的音画同步率和指令遵循能力。

配套开源的 CineDub 数据集构建流程则是另一大亮点。通义实验室利用大模型思维链技术，将原始影视素材自动化转化为结构化数据，大幅降低了人工标注成本。数据显示，该流程将中英文字错率降低至1% 左右，说话人分离错误率仅为1.20%，为大模型提供了极具竞争力的训练基石。

目前，Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社区同步上线，支持30秒以内的短视频片段推理。它不仅在单人独白场景下表现优异，还率先实现了对双人及多人对话场景的专业级支持。这一突破标志着 AI 语音技术正从基础的客服、助手场景，向高标准的动漫、影视后期制作领域迈进。

GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge

ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

2026年03月16日

18:21

阿里通义发布 Fun-CineForge：开源影视级配音大模型，攻克音画同步难题

最新快讯

2026年03月16日

市场监管总局启动网络食品安全合规提质行动

高凌信息拟收购凯睿星通控股权

Freestyle World获1000万美元A轮融资

百图生科拟赴港上市，李彦宏牵头创立

东莞农商银行修订章程取消监事会，两名高管辞任

科金明北交所IPO迎第二轮问询，社保公积金缴纳合规性被重点追问

魏牌V9X六座SUV亮相：归元S平台首款车型

Ropedia获数千万美元种子轮融资

美光完成力积电铜锣P5厂交割，启动二期扩建

梳邦再也医院入选2026年全球最佳医院前250强

京东将建全球最大具身智能数据采集中心

美银预测：2030年人形机器人年出货量将达120万台

​阿里通义发布 Fun-CineForge：开源影视级配音大模型，攻克音画同步难题

最新快讯

2026年03月16日

阿里通义发布 Fun-CineForge：开源影视级配音大模型，攻克音画同步难题