在备受瞩目的WAIC2025世界人工智能大会上,生数科技携创新力震撼发布Vidu Q1″参考生视频”功能,以算法革新彻底颠覆传统视频制作模式,为视频生成领域注入革命性突破。这一突破性技术彻底改变了传统视频制作的繁琐流程,将创作效率提升至全新高度。
告别分镜,一键直出视频成为Vidu Q1″参考生视频”最耀眼的亮点。用户只需上传人物、道具、场景等参考图像,并配合文字提示,即可直接生成完整视频素材。制作流程从传统的”分镜生成——视频生成——剪辑——成片”精简为”参考图——视频生成——剪辑——成片”,极大降低了创作门槛。以”诸葛亮与丘吉尔、拿破仑在会议室讨论”为例,只需输入提示词并上传三位历史人物的参考图和会议室场景图,系统即可智能生成三人同框对话的完整视频,为创意表达开辟无限可能。
该功能的核心优势在于破解了视频模型商业化的关键瓶颈——主体一致性问题。Vidu Q1参考生目前支持最多七个主体同时输入并保持高度一致,据生数科技透露,这一能力已能满足绝大多数创作场景需求。生数科技CEO骆怡航指出,这种通用创作方式将全面赋能广告、动漫、影视、文旅、教育等多元商业领域,实现从线下拍摄到线上AI创作的根本性转变。
在技术路径与产业导向方面,生数科技采用先进的U-ViT架构,结合扩散模型与Transformer技术,并在此基础上持续优化算法模块。Vidu模型内置强大的多模态理解能力,已成功应用于视频生成领域。骆怡航强调,团队始终以产业落地为核心导向,暂未将理解与生成一体化作为优先级,”行业客户更关注内容实际效果而非技术路线本身”。
7月25日,清华大学与生数科技联合发布具身智能模型Vidar,通过”视频大模型+具身智能”创新路径实现低成本、少样本泛化。骆怡航详细解释,视频模型与具身智能在本质上都处理时空信息,采用相同的输入决策逻辑。团队基于Vidu视频大模型,仅需少量机器人实操视频训练,即可将虚拟视频智能转化为对应机械臂动作,有效解决传统VLA路线面临的数据稀缺难题。目前,Vidu仍以提升视频生成能力为最高优先级,将具身智能作为持续探索方向,为该领域开拓潜在商业市场空间。