视频AI异军突起预示多模态技术新突破

2023-10-12 08:21:30 互联网 84 次阅读

声明：本文源自微信公众号AI新智能（ID：alpAIworks），作者：举大名耳，授权微新创想转载发布。近年来，视频AI技术正以惊人的速度崛起，标志着AI竞争进入了全新阶段。在AI领域，聊天机器人、绘画工具等应用早已遍地开花，但在这片同质化竞争激烈的市场中，一个技术门槛高且鲜为人知的方向正在悄然崭露头角——视频AI。这个领域不仅能够调动人类的视觉与听觉，更在多模态技术浪潮中扮演着越来越重要的角色。

根据Twitter上作者Will 郎瀚威发布的统计数据，今年8月至9月，各大文生图类AI网站的访问量呈现下滑趋势。然而，就在此时，国外知名视频AI平台HeyGen的访问量逆势上涨92%，流量跃居各大独立AI网站之首。这一现象引发了一个关键问题：为何默默无闻的视频AI突然异军突起，超越了备受瞩目的文生图类AI应用？在GPT-4V发布、多模态技术不断突破的背景下，这一变化又预示着怎样的未来趋势？

### 多模态的前奏

从AI发展的大格局来看，HeyGen的流量飙升或许只是多模态技术高速发展背景下的一个注脚。谷歌推出具备多模态功能的Gemini，OpenAI发布GPT-4V，各大科技巨头纷纷将竞争焦点转向多模态技术。那么，为何多模态技术成为AI巨头眼中的关键突破点？答案可能在于其打破“专业壁垒”的潜力。

在多模态技术尚未成熟时，不同模态、领域之间存在着巨大的鸿沟。例如，擅长文案创作的编辑若缺乏美术知识，难以用AI生成出色的视觉作品；而画师若未接受专业写作训练，也难以借助AI创作出优质文章。视频剪辑领域同样存在类似的“壁垒”。根据知乎上一位视频剪辑从业者的分享，一个完整的视频剪辑流程包括调色、素材整理、字幕添加等环节，需要掌握PR、Edius、剪映等多种软件，并熟悉各类转场、调色、粒子特效插件的使用。若要实现更丰富的效果，还需掌握b-roll转场、字幕遮罩、坡度变速等复杂操作。此外，素材搜集和版权问题也是一大挑战。正是这些原因，使得视频剪辑成为一项需要专业技能的工作。以国内知名平台B站为例，一位百万粉丝UP主团队透露，为了保证视频质量和更新效率，通常会配备数名经验丰富的剪辑师。

若有一种AI剪辑应用能够根据创作者的思路，自动高效地完成整个视频制作，视频领域将迎来怎样的颠覆？实际上，这样的技术已经出现。以下两张图片分别来自不同视频片段，你能分辨出哪个是真人，哪个是AI生成的吗？答案是：这两个视频均由AI生成，且均出自HeyGen平台。在HeyGen上，用户只需上传一段2分钟的小视频，就能生成与真人无异的效果，甚至可以调整手势、面容和口型等细微肢体语言。这类技术的实现，正是多模态技术发力的开端。

### 视频AI之力

以上所有视频均来自HeyGen的Joshua Avatar2.0，一款主打超逼真效果的AI人像视频工具。实现这样逼真的视频效果只需三个步骤：选形象—写文本—输出。HeyGen与其他同类视频AI应用最大的区别在于，它可以利用现有数据创造全新内容。以往的类似应用，如D-ID，虽然也能从照片或AI形象生成视频，但更多是基于复制或处理已有内容的AI技术。这些技术需要用户提供照片或录音，或从有限的AI形象中选择，限制了用户的选择和定制空间。而HeyGen的技术允许用户从文本直接生成视频，并使用多种AI形象和声音。目前，HeyGen提供超过100种数字人素材和模板，涵盖广告、电商、新闻等场景，还支持自己编辑PPT生成。此外，HeyGen支持300种不同音色和40种语言，以及视频翻译功能，一键将视频翻译成其他语言，对跨国和多语言沟通极为有用。通过这种定制化和排列组合的方式，HeyGen能够快速制作出适用于多种场景的视频，让不精通视频剪辑的人也能轻松表达创意。

除了HeyGen，许多类似的视频AI应用也在悄然崛起。例如，Pictory.AI可以直接将脚本转化成视频。用户只需几次点击，就能生成配有逼真AI语音、匹配素材和音乐的专业视频。在制作视频时，用户可以从Pictory提供的多种模板中选择，设置视频样式。Pictory会根据用户输入的文本和选择的模板，自动生成故事板。故事板由多个场景组成，每个场景包含文字、图片、AI语音和音乐。用户可以在故事板上预览并编辑调整。如此一来，团队无需昂贵的摄影师和剪辑师，也能制作出高质量视频。

同样地，用3D CGI角色替换真人演员的Wonder Studio，也是旨在提高视频制作效率的AI应用。Wonder Studio是一个基于网页的视频平台，用户可以轻松将任意CGI角色添加到场景中，实现无缝融合。用户只需拍摄所需场景并上传，Wonder Studio的AI引擎会分析演员的动作和面部表情，转换成运动数据，驱动用户选择的CGI角色。这样，用户无需复杂的3D软件或昂贵的制作设备，也能完美替换真人演员。

### 趋势及国内现状

从以上视频AI的技术特点中，我们可以总结出目前视频AI技术的两大趋势：

1. **制作流程极大简化**
利用生成式AI技术，人们能够以自动化、智能化的方式重新组合文本、图像、音频、视频等多模态数据，创造全新内容。这不仅降低了成本，更打破了各模态之间的“技术壁垒”。这一壁垒的打破，正是生成式AI走向通用化、普及化的关键。

2. **内容的多样性和定制性**
利用多模态AI技术，人们能够处理和关联多种信息模态，在内容创作过程中更好地表达个性风格，适应不同场合和目的。这是以往受限于已有素材的单一模态技术难以实现的。

目前，国内的视频AI应用只勉强做到了“简化”这一步。虽然国内已有腾讯智影、一帧秒创、万彩微影等类似AI视频应用，但它们主要利用AI简化视频创作过程，提供文本配音、文章转视频、数字人播报等功能。然而，在生成效果方面，国内应用的视频清晰度、素材丰富度以及定制化功能仍与HeyGen等应用存在较大差距。例如，腾讯智影的数字人视频可选素材有限，生成的视频在流畅度和逼真度上仍未达到HeyGen的水平。

总体而言，这类应用仍只能在平台提供的素材库内选择有限元素进行创作，且在某些类别（如数字人视频）上，国产应用生成的视频仍未达到HeyGen的流畅、逼真标准。若在本轮AI革命中，国内视频AI技术仅止步于“降本”环节，从长远来看，将难以征服智能化时代的观众。

当下观众对AI制作视频的态度仍较为冷淡，许多人认为在视频中使用AI技术是一种偷懒、不负责任且廉价的制作方式。究其原因，是部分国内AI技术尚未突破感官阈值，观众能明显察觉到“这不是人做的”，从而产生“没有感情”“粗制滥造”的印象。更有甚者，将使用AI技术的视频打上“营销号”的标签。面对这样的环境，许多珍惜声誉的视频创作者不敢轻易使用AI技术，生怕被扣上“粗制滥造”的帽子。

生成式AI的进步确实极大简化了视频制作流程，但在智能时代，观众不再想看到批量生产的“低劣”视频。要想摘掉这样的标签，真正让作品具有感情和灵魂，除了“降本”之外，国产视频AI在个性化、拟真度以及素材丰富性方面还有很长的路要走。