声明:本文来自于微信公众号 机器之心,作者:冷猫,授权站长之家转载发布。近年来,明星视频生成产品持续迭代升级,凭借简洁易用的操作界面和强大的模型技术,迅速成为大众娱乐的新宠。在生成领域,谷歌的纳米香蕉 nano-banana 以「照片变手办」的超高真实感创意玩法横扫社交媒体,尤其受到宠物爱好者的追捧。这一现象揭示了 AI 生成技术让想象落地的强大能力,激发了全民 AI 创作的浪潮。
在 AI 视频创作领域,PixVerse(拍我 AI)上周五启动免费开放周,两天内涌现出大量创意作品。创作者们利用 Nano banana 3D 手办模板和小红书、短视频平台,玩出了衣柜变装的精彩视频,点赞量突破5000。早在两年前,PixVerse 就上线网页端产品,30天内访问量突破百万,成为视频生成领域的元老级玩家。其推出的「拍我 AI」国内版本搭载 PixVerse V4.5底模,凭借「好玩好用的 AI 工具」标签,迅速占领视频生成应用榜首。
对于普通用户,拍我 AI 提供海量热门 AI 视频模板,让创意表达触手可及;对于进阶创作者,文生视频、图生视频、首尾帧、多主体、视频续写等工具,完美支持天马行空的创作思路。更值得一提的是,拍我 AI 早在 veo3 之前就推出音频音效和对口型等音频创作功能,实现视频创作全流程闭环。即日起至9月10日,用户生成任意视频无需消耗积分,可尽情体验爆款短视频创作,释放创意潜能。
拍我 AI 最新发布的 Agent 创作助手功能,将 AI 导演随身携带。用户只需选择模板并上传图片,Agent 即可自动生成5-30秒短片,覆盖当前爆火特效和创意视频,彻底解放繁琐的 Prompt 设计工作。以网红哈基米为例,拍我 AI 不仅生成高质量手办尾帧图,还打造炫酷转场动画,让「照片变手办」成为全民玩法。凭借这些创意功能,拍我 AI 全球用户数已突破亿级,成为全球 AI 视频创作平台的领跑者。
爱诗科技作为拍我 AI 背后的研发团队,在技术创新上持续突破。新一代自研视频生成大模型 PixVerse V5 于8月27日发布,在权威测评平台 Artificial Analysis 测试中,图生视频项目全球第一,文生视频项目全球第二,视频生成能力全面领先。PixVerse V5 的三大核心优势:智能理解、极速生成、更逼真自然,为用户带来前所未有的创作体验。
在智能理解方面,PixVerse V5 采用统一特征空间技术,让用户指令与生成视频实现无缝对接。以「莱特兄弟的双翼飞机进化到喷气客机」为例,拍我 AI 能精准理解模糊指令,生成高质量视频。在极速生成方面,PixVerse V5 将视频生成速度从分钟级提升至秒级,最快5秒即可生成高质量短片,1分钟生成1080P高清视频。通过扩散极致蒸馏技术,爱诗科技将视频扩散生成过程压缩至极少数步骤,实现准实时生成。
在更逼真自然方面,PixVerse V5 通过扩大模型参数规模和高质量训练数据,显著提升审美、复杂动作、运动幅度和光影的还原能力。爱诗科技全面采用自研的视频生成模型 DiT 架构,结合视觉 Transformer 和扩散模型优点,利用全局注意力机制,实现可扩展性强、多模态扩展、生成质量高的优势。PixVerse V5 在模型结构设计、训练策略等方面进行创新,包括专用于视频与图像生成的 Tokenizer、自适应 Attention 结构等,突破创造力上限。
在模型训练策略上,PixVerse V5 采用多模态统一表征、自适应加噪去噪、渐进式训练策略、原生动态分辨率支持等创新优势,有效提升模型理解与生成精度。爱诗科技拥有海量图像和视频数据,为模型预训练和监督训练微调提供高质量数据支持。这些技术革新驱动 PixVerse 模型不断进化,支撑用户生成动作自然、光影真实、物理规律准确的创意视频,满足广告、电商、影视等高标准要求。
随着技术迭代,视频生成已进入创意和美学的新阶段。PixVerse V5 在模型中融入高质量视频数据和人类偏好标注,结合强化学习后训练(RLHF),提升文本-视频对齐精度、动作自然度和美学评分。超可爱的小猫咪舔爪爪、毛茸茸的小窝和字体设计等细节,展现了 AI 对人类审美的深刻理解,为 AI 艺术创作奠定坚实基础。
爱诗科技模型发展历程令人瞩目。从2023年7月开始训练视频生成大模型,到2025年8月底发布 PixVerse V5,仅用两年时间实现技术飞跃。期间每隔数月就有模型迭代,2024年底发布 PixVerse App 产品,创全球最快高质量视频生成模型纪录。从 V3 到 V5,生成速度从10秒进化到5秒准实时,镜头语言、多主体、智能体等里程碑式功能接连上线,推动拍我 AI 成为全球用户量最大的视频生成平台。
AI 视频生成是一场没有终点的马拉松。爱诗科技创始人兼 CEO 王长虎博士表示:「视频是最贴近用户的内容形态。一旦视频生成技术能够落地,它的产品化和商业化潜力可能不亚于大语言模型。」2024年10月 PixVerse V3 上线,标志着普通用户首次用 AI 创造出无法想象的视频,这一刻才是视频生成的「GPT 时刻」。爱诗科技将持续释放视频潜能,让创造的能力真正走向每个普通人。