微新创想(idea2003.com)7月24日讯:7月20日,上海人工智能实验室(上海AI实验室)携手中央广播电视总台重磅发布“央视听媒体大模型”(CMG Media GPT),这一创新成果标志着我国在人工智能与媒体融合领域迈出了重要一步。据悉,央视听大模型已展现出卓越的视频理解与视听媒体问答能力,更具备根据视频内容自动创作文字的强大功能,无论是主持词、新闻稿件,还是诗歌创作,都能轻松驾驭。
媒体编辑们将受益于央视听大模型的智能辅助,只需一键操作,即可生成风格多样的解说词,目前已成功应用于美食、文化、科技等多个领域。此外,该模型还提供了强大的交互式图像、视频编辑与创作工具,用户通过简单的光标和文字指令,便能快速完成图像的修改或创作。
上海AI实验室科研团队表示,央视听大模型的视觉理解能力源于跨模态互动技术的重大突破。大模型将图像和视频视为另一种形式的“语言”,通过先进的视觉与语言对齐技术,有效降低了人工智能视觉任务的复杂度。基于对多模态数据的深度建模,央视听大模型能够精准感知图像的风格与纹理笔触,并将用户输入的文本指令与图像进行高度对齐,从而实现用户需求驱动的画面生成及风格一致的内容创作。
值得一提的是,央视听大模型在视频内容创作方面同样表现出色。它具备快速生成“数字人主播”的能力,仅需较短时间的真人视频采集,便能生成高度逼真的数字人主播。这些AI生成的数字人主播不仅能根据既定文案和背景场景快速生成播报视频,还能通过自动学习真人的语言及动作习惯,实现更加自然生动的表情与动作表现,为媒体行业带来革命性的变革。