声明:本文源自微信公众号AI新智能(ID:alpAIworks),作者:举大名耳,授权微新创想转载发布。近年来,视频AI技术正以惊人的速度崛起,标志着AI竞争进入了全新阶段。在AI领域,聊天机器人、绘画工具等应用早已遍地开花,但在这片同质化竞争激烈的市场中,一个技术门槛高且鲜为人知的方向正在悄然崭露头角——视频AI。这个领域不仅能够调动人类的视觉与听觉,更在多模态技术浪潮中扮演着越来越重要的角色。

根据Twitter上作者Will 郎瀚威发布的统计数据,今年8月至9月,各大文生图类AI网站的访问量呈现下滑趋势。然而,就在此时,国外知名视频AI平台HeyGen的访问量逆势上涨92%,流量跃居各大独立AI网站之首。这一现象引发了一个关键问题:为何默默无闻的视频AI突然异军突起,超越了备受瞩目的文生图类AI应用?在GPT-4V发布、多模态技术不断突破的背景下,这一变化又预示着怎样的未来趋势?

### 多模态的前奏

从AI发展的大格局来看,HeyGen的流量飙升或许只是多模态技术高速发展背景下的一个注脚。谷歌推出具备多模态功能的Gemini,OpenAI发布GPT-4V,各大科技巨头纷纷将竞争焦点转向多模态技术。那么,为何多模态技术成为AI巨头眼中的关键突破点?答案可能在于其打破“专业壁垒”的潜力。

在多模态技术尚未成熟时,不同模态、领域之间存在着巨大的鸿沟。例如,擅长文案创作的编辑若缺乏美术知识,难以用AI生成出色的视觉作品;而画师若未接受专业写作训练,也难以借助AI创作出优质文章。视频剪辑领域同样存在类似的“壁垒”。根据知乎上一位视频剪辑从业者的分享,一个完整的视频剪辑流程包括调色、素材整理、字幕添加等环节,需要掌握PR、Edius、剪映等多种软件,并熟悉各类转场、调色、粒子特效插件的使用。若要实现更丰富的效果,还需掌握b-roll转场、字幕遮罩、坡度变速等复杂操作。此外,素材搜集和版权问题也是一大挑战。正是这些原因,使得视频剪辑成为一项需要专业技能的工作。以国内知名平台B站为例,一位百万粉丝UP主团队透露,为了保证视频质量和更新效率,通常会配备数名经验丰富的剪辑师。

若有一种AI剪辑应用能够根据创作者的思路,自动高效地完成整个视频制作,视频领域将迎来怎样的颠覆?实际上,这样的技术已经出现。以下两张图片分别来自不同视频片段,你能分辨出哪个是真人,哪个是AI生成的吗?答案是:这两个视频均由AI生成,且均出自HeyGen平台。在HeyGen上,用户只需上传一段2分钟的小视频,就能生成与真人无异的效果,甚至可以调整手势、面容和口型等细微肢体语言。这类技术的实现,正是多模态技术发力的开端。

### 视频AI之力

以上所有视频均来自HeyGen的Joshua Avatar2.0,一款主打超逼真效果的AI人像视频工具。实现这样逼真的视频效果只需三个步骤:选形象—写文本—输出。HeyGen与其他同类视频AI应用最大的区别在于,它可以利用现有数据创造全新内容。以往的类似应用,如D-ID,虽然也能从照片或AI形象生成视频,但更多是基于复制或处理已有内容的AI技术。这些技术需要用户提供照片或录音,或从有限的AI形象中选择,限制了用户的选择和定制空间。而HeyGen的技术允许用户从文本直接生成视频,并使用多种AI形象和声音。目前,HeyGen提供超过100种数字人素材和模板,涵盖广告、电商、新闻等场景,还支持自己编辑PPT生成。此外,HeyGen支持300种不同音色和40种语言,以及视频翻译功能,一键将视频翻译成其他语言,对跨国和多语言沟通极为有用。通过这种定制化和排列组合的方式,HeyGen能够快速制作出适用于多种场景的视频,让不精通视频剪辑的人也能轻松表达创意。

除了HeyGen,许多类似的视频AI应用也在悄然崛起。例如,Pictory.AI可以直接将脚本转化成视频。用户只需几次点击,就能生成配有逼真AI语音、匹配素材和音乐的专业视频。在制作视频时,用户可以从Pictory提供的多种模板中选择,设置视频样式。Pictory会根据用户输入的文本和选择的模板,自动生成故事板。故事板由多个场景组成,每个场景包含文字、图片、AI语音和音乐。用户可以在故事板上预览并编辑调整。如此一来,团队无需昂贵的摄影师和剪辑师,也能制作出高质量视频。

同样地,用3D CGI角色替换真人演员的Wonder Studio,也是旨在提高视频制作效率的AI应用。Wonder Studio是一个基于网页的视频平台,用户可以轻松将任意CGI角色添加到场景中,实现无缝融合。用户只需拍摄所需场景并上传,Wonder Studio的AI引擎会分析演员的动作和面部表情,转换成运动数据,驱动用户选择的CGI角色。这样,用户无需复杂的3D软件或昂贵的制作设备,也能完美替换真人演员。

### 趋势及国内现状

从以上视频AI的技术特点中,我们可以总结出目前视频AI技术的两大趋势:

1. **制作流程极大简化**
利用生成式AI技术,人们能够以自动化、智能化的方式重新组合文本、图像、音频、视频等多模态数据,创造全新内容。这不仅降低了成本,更打破了各模态之间的“技术壁垒”。这一壁垒的打破,正是生成式AI走向通用化、普及化的关键。

2. **内容的多样性和定制性**
利用多模态AI技术,人们能够处理和关联多种信息模态,在内容创作过程中更好地表达个性风格,适应不同场合和目的。这是以往受限于已有素材的单一模态技术难以实现的。

目前,国内的视频AI应用只勉强做到了“简化”这一步。虽然国内已有腾讯智影、一帧秒创、万彩微影等类似AI视频应用,但它们主要利用AI简化视频创作过程,提供文本配音、文章转视频、数字人播报等功能。然而,在生成效果方面,国内应用的视频清晰度、素材丰富度以及定制化功能仍与HeyGen等应用存在较大差距。例如,腾讯智影的数字人视频可选素材有限,生成的视频在流畅度和逼真度上仍未达到HeyGen的水平。

总体而言,这类应用仍只能在平台提供的素材库内选择有限元素进行创作,且在某些类别(如数字人视频)上,国产应用生成的视频仍未达到HeyGen的流畅、逼真标准。若在本轮AI革命中,国内视频AI技术仅止步于“降本”环节,从长远来看,将难以征服智能化时代的观众。

当下观众对AI制作视频的态度仍较为冷淡,许多人认为在视频中使用AI技术是一种偷懒、不负责任且廉价的制作方式。究其原因,是部分国内AI技术尚未突破感官阈值,观众能明显察觉到“这不是人做的”,从而产生“没有感情”“粗制滥造”的印象。更有甚者,将使用AI技术的视频打上“营销号”的标签。面对这样的环境,许多珍惜声誉的视频创作者不敢轻易使用AI技术,生怕被扣上“粗制滥造”的帽子。

生成式AI的进步确实极大简化了视频制作流程,但在智能时代,观众不再想看到批量生产的“低劣”视频。要想摘掉这样的标签,真正让作品具有感情和灵魂,除了“降本”之外,国产视频AI在个性化、拟真度以及素材丰富性方面还有很长的路要走。

最新快讯

2025年12月15日

16:40
近日,加拿大蒙特利尔上演了一场幸运的奇迹。20岁的女孩Brenda Aubin-Vega在购买彩票时,意外刮中了三个小猪存钱罐图案,从而赢得了魁北克彩票公司(Loto-Québec)最高奖金——100万加元(约合532万人民币)。这一突如其来的惊喜,不仅彻底改变了她的生活轨迹,更让她对未来充满了无限可能。 根据魁北克彩票公司的规定,中奖者可以选择两种兑奖方式...
16:40
12月14日,内蒙古包头市青山区自由路第二小学的校园里,一场别开生面的雪中趣事温馨上演,而这场欢乐的焦点,正是该校德育副校长。当日,整个校园被皑皑白雪轻轻覆盖,孩子们的欢声笑语在纯净的雪地上空回荡,构成一幅生动而美好的冬日画卷。这位副校长完全融入了这场雪趣之中,与学生们一起嬉戏打闹,尽情享受着冬日限定的快乐时光。 在欢快的互动中,学生们纷纷拿起晶莹剔透的雪球...
16:40
MCN机构正逐渐突破传统边界,从单纯的内容孵化者向多元化文化产品制造者转型。当短视频创作者还在激烈争夺流量时,蜂群文化旗下动漫IP"星有野"已开始筹备首部院线电影,这部由猫眼电影投资、制作成本超《浪浪山小妖怪》的项目预计两年后上映。蜂群文化CEO莫力洋表示:"这将是基于星有野世界的原创故事,是我们接下来的头号战略任务之一。" 今年10月底,无忧传媒携手上千位...
16:39
微新创想12月15日重磅报道,小米集团总裁卢伟冰近日更换了个人用机,其微博签名档悄然从"小米17 Pro Max"更新为"小米手机",这一微妙变化迅速引发业界关注。根据多方推测,卢伟冰新更换的机型极有可能就是备受期待的即将发布的小米17 Ultra旗舰手机。不少米粉粉丝在社交平台上纷纷留言询问:"卢总,17 Ultra的实际使用体验如何?" 目前公开资料显...
16:34
2025年12月15日,人工智能领域传来重磅消息,通义大模型正式宣布开源两款革命性的“百聆”语音模型,并完成了一系列关键升级。这两款模型不仅代表了语音技术的最新突破,更将开启语音交互的新纪元。 在音色克隆领域,Fun-CosyVoice3-0.5B模型实现了令人惊叹的零样本音色克隆技术。这意味着用户仅需3秒钟的录音样本,即可实现跨语种、方言乃至情感的精准语音...
16:34
2025年12月15日,中国电影发布最新业绩说明会内容,全面展示了公司当前及未来的创作布局。据披露,公司目前正推进近90个影视项目,其中原创项目占比高达约50个,彰显了公司对内容创新的坚定投入与雄厚实力。 2026年将是中国电影创作生产的关键一年,公司计划推出多部精彩影片,涵盖科幻、奇幻、历史、谍战等多元题材。重点参投及中小成本影片如《星河入梦》《大圣崛起》...
16:33
2025年12月15日,备受瞩目的半导体企业礼鼎半导体正式宣布成功完成B轮战略融资,此次投资由实力雄厚的深圳联道资产独家领投。作为国内领先的半导体封装载板解决方案提供商,礼鼎半导体长期致力于高阶封装载板的技术研发、精密制造与市场推广,其产品广泛应用于高速运算、5G通信、人工智能、物联网及车用电子等前沿领域。公司凭借卓越的技术实力和稳定的品质表现,已成功为高性...
16:33
2025年12月15日,努比亚官方携手徐州老味菜,共同推出一款极具特色的“手机饱食度套餐”,引发广泛关注。这款套餐精心挑选了四道地道徐州菜,包括香气扑鼻的地锅鸡、鲜嫩可口的京酱肉丝等经典美食,搭配两份香喷喷的米饭,为消费者带来一场味蕾盛宴。原价139元的套餐,在双方联合补贴后,惊喜降至99元,首批限量1000套,迅速引发抢购热潮。 此次合作是努比亚与徐州老味...
16:33
2025年12月,深圳核心医疗科技股份有限公司成功获得科创板IPO受理,标志着其成为科创板第五套标准重启后的首家获受理的创新医疗器械企业。这一里程碑事件不仅彰显了公司在医疗科技领域的创新实力,更凸显了其人工心脏产品在市场上的巨大潜力。 公司专注于人工心脏的研发与生产,其首款商业化产品Corheart®于2023年正式上市。该产品的推出不仅推动了公司营收的快速...
16:33
2025年12月15日,全球生物制药领域的重大交易再度上演。Sobi公司正式宣布与维亚生物达成战略合作,共同参与对Arthrosi公司的收购。这一备受瞩目的交易协议显示,Sobi将斥资最高15亿美元,全面收购Arthrosi的全部股权,标志着双方在创新药物研发领域的深度合作迈入新阶段。据悉,此次收购交易预计将于2026年上半年正式完成,此举将显著增强Sobi...
16:33
2025年12月15日,Medra公司正式宣布成功完成总额高达5200万美元的A轮融资。此次融资由Human Capital作为领投方强势入场,Lux Capital、Neo、NFDG、Catalio Capital Management、Menlo Ventures、776及Fusion Fund等多家知名投资机构紧随其后参与跟投。这一重大融资事件不仅彰显...
16:33
2025年12月14日,备受瞩目的微信输入法迎来重大升级,iOS版与Android版同步开启3.0.0版本内测。此次更新以语音输入为核心突破,全面引入先进的大模型技术,旨在大幅提升语音识别的速度与准确率,为用户带来前所未有的流畅体验。新版本不仅支持标准中文、英文输入,更扩展了多种方言的识别能力,满足不同地域用户的需求。特别值得一提的是,新增的不限时长录音功能...