
字节跳动近日重磅推出其最新研发的多模态大语言模型Vidi2,这款拥有120亿参数的AI模型专注于视频理解领域,标志着视频处理技术迈入全新纪元。Vidi2能够高效处理长达数小时的原始视频素材,精准捕捉故事发展脉络,并根据用户提供的简单提示,自动生成符合TikTok风格的短视频或完整电影片段,这一突破性能力预示着对传统视频编辑行业的颠覆性变革。
突破性技术:精细时空定位(STG)
Vidi2的核心优势在于其卓越的视频理解能力。新模型创新性地引入了精细时空定位(STG)技术,能够同时识别视频中的时间戳和目标对象的边界框。当接收到文本查询时,Vidi2不仅能快速定位对应的时间段,还能在这些时间范围内精确标记出具体物体的位置信息。这一技术突破为视频编辑带来了革命性变化。
技术架构:高效处理长视频的创新设计
在技术实现层面,Vidi2采用了先进的Gemma-3作为主干网络,并配合重新设计的自适应标记压缩技术。这种架构确保了在处理超长视频时,既能保持极高的运行效率,又能完整保留视频中的关键细节信息,为长视频分析提供了理想解决方案。
性能领跑:超长视频理解能力显著领先
Vidi2在行业基准测试中表现亮眼。在开放式时间检索的VUE-TR-V2基准测试中,其总体IoU指标达到48.75,特别是在处理超过1小时的长视频时,性能比主流商业模型高出整整17.5个百分点。在定位任务(VUE-STG)方面,模型同样取得了vIoU32.57和tIoU53.19的行业最佳成绩。

从模型到产品:TikTok的”智能剪辑师”
依托Vidi2的强大功能,字节跳动已成功开发出多款实用的自动化编辑工具,包括高光时刻智能提取、故事感知剪切、内容感知重构图以及多视角智能切换等。值得注意的是,这些功能均可在普通消费级硬件上流畅运行,极大地降低了专业视频编辑的技术门槛。
TikTok应用:Smart Split功能实践
相关技术已成功应用于TikTok的Smart Split智能分割功能,该功能能够自动完成视频剪辑、重构图生成、智能字幕添加以及长视频转录等任务,将冗长的视频素材转化为符合TikTok传播特性的短视频内容。此外,AI Outline工具能够将用户的简单提示或热门话题转化为结构化的视频标题、开场白和完整大纲,进一步提升内容创作效率。
行业影响:数据优势带来的竞争挑战
Vidi2的发布与字节跳动庞大的TikTok(日活跃用户达10亿)数据平台形成强大协同效应。海量视频数据的训练和实时反馈优化,使字节跳动在AI领域获得了显著优势,为原生AI公司带来了前所未有的竞争压力。随着大平台公司技术飞轮的加速运转,传统AI企业可能面临更加激烈的市场竞争环境。
发展前景:Demo即将发布
目前Vidi2仍处于研究阶段,但官方已宣布Demo版本即将推出,这将使更多开发者和用户有机会体验这项革命性技术。更多技术细节可参考官方发布地址:https://www.alphaxiv.org/abs/2511.19529
