阿里巴巴与南开大学联手研发LLaVA-Scissor视频大模型压缩技术

近日,阿里巴巴通义实验室携手南开大学计算机科学学院共同推出了一项突破性的视频大模型压缩技术——LLaVA-Scissor。这一创新成果旨在有效应对视频模型处理过程中所面临的核心挑战,特别是传统方法在处理视频帧时因高 token 数量而导致的推理速度缓慢和扩展性不足等问题。视频模型需要对每一帧进行独立编码,这种序列化处理方式使得 token 数量急剧增长,给计算资源带来了巨大压力。

阿里巴巴与南开大学联手研发LLaVA-Scissor视频大模型压缩技术插图1

尽管传统的 token 压缩技术如 FastV、VisionZip 和 PLLaVA 等在图像领域取得了显著进展,但在视频理解任务中却暴露出语义覆盖不足和时序冗余等突出问题。为了突破这些瓶颈,LLaVA-Scissor 采用了一种基于图论的创新算法——SCC 方法,能够精准识别 token 集合中的不同语义区域。通过计算 token 之间的相似性,构建相似性图,并识别图中的连通分量,该方法能够将每个连通分量中的多个 token 替换为代表性 token,从而大幅减少 token 数量,显著提升处理效率。

为了进一步提升压缩效果,LLaVA-Scissor 采用了两步时空压缩策略。在空间压缩阶段,系统会对每一帧进行语义区域的精准识别,而在时间压缩阶段则专注于去除跨帧的冗余信息。这种双管齐下的压缩方式确保了最终生成的 token 能够高效地表示整个视频的完整语义,既保留了关键信息,又大幅降低了计算复杂度。

阿里巴巴与南开大学联手研发LLaVA-Scissor视频大模型压缩技术插图2

在实验验证方面,LLaVA-Scissor 在多个权威视频理解基准测试中展现了卓越性能,特别是在低 token 保留率下的优势尤为突出。例如,在视频问答基准测试中,该模型在仅保留50% token的情况下,性能与原始模型相当,而在35%和10%的保留率下,其表现更是超越了其他竞争方法。在长视频理解测试中,LLaVA-Scissor 同样表现出色,在 EgoSchema 数据集上,当 token 保留率仅为35%时,准确率仍能达到57.94%。这些优异表现充分证明了该技术的创新性和实用性。

这一创新的压缩技术不仅显著提升了视频处理的效率,更为未来视频理解和处理领域的发展开辟了新的方向。LLaVA-Scissor 的推出,无疑将为视频人工智能领域带来深远影响,推动相关技术的进一步突破和应用拓展。划重点:🌟 LLaVA-Scissor 是阿里巴巴与南开大学联合研发的创新视频大模型压缩技术,专门针对传统方法中 token 数量激增的问题提供高效解决方案。  🔍 SCC 方法通过计算 token 相似性,构建图并识别连通分量,能够精准减少 token 数量,同时保留关键语义信息。  🏆 LLaVA-Scissor 在多个视频理解基准测试中表现卓越,尤其在低 token 保留率下展现出显著性能优势,为视频人工智能领域树立了新的标杆。

最新快讯

2025年08月05日

10:08
微新创想8月5日讯 谷歌近日发布了一则引人注目的广告片,以幽默的方式嘲讽了苹果AI功能的跳票现象,并巧妙地引导苹果用户转向Pixel 10系列智能手机。在这则广告中,谷歌用简洁有力的语言指出,如果你曾因为某个"即将推出"的功能而考虑购买新手机,那么当这一期待已经持续整整一年时,或许该重新审视这个"即将推出"的定义,或者干脆选择另一款手机。 此前在2024年苹...
10:08
微新创想8月5日讯 苹果公司于今年5月正式宣布推出革命性的辅助功能更新,其中脑机接口(BCI)技术成为焦点。这项创新举措将显著提升行动不便用户的设备使用体验,iOS、iPadOS和visionOS系统将全面支持脑机接口切换控制协议。苹果强调,该技术突破的核心优势在于无需任何物理操作即可实现设备控制,这意味着iPhone、iPad乃至Apple Vision ...
10:08
微新创想8月5日重磅消息,据行业深度报道,苹果公司近期公布了一项具有里程碑意义的两年生产计划,核心目标是将更先进的OLED显示技术全面应用于iPhone系列产品。根据爆料信息,搭载双层OLED屏幕的iPhone有望在2028年之后正式问世,这一技术升级将显著提升苹果手机的用户体验。 目前,苹果在平板电脑领域已经率先采用了名为"Tandem OLED"的双层O...
10:08
微新创想8月5日最新消息,一位科技博主意外曝光了iPhone 17 Air与iPhone 17 Pro的电池配置对比图,引发广泛关注。据爆料内容显示,iPhone 17 Air的电池厚度惊人地薄至2.49mm,仅为iPhone 17 Pro的一半左右,其电池容量也仅为2800mAh(而iPhone 17 Pro的电池容量目前尚不明确)。 值得注意的是,作为一...
10:08
微新创想8月5日讯 腾讯旗下热门游戏《金铲铲之战》鸿蒙版今日正式登陆华为应用市场尝鲜专区,为鸿蒙生态再添新成员。今日12:00起,该游戏将开启万人删档测试,测试周期定于2025年8月5日至9月3日,为玩家提供全新的游戏体验。 据悉,《金铲铲之战体验服》鸿蒙版测试名额实行限时开放机制,一旦达到注册上限将暂停接受新用户加入。作为删档测试服务器,该版本将不定期进行...
10:08
微新创想8月5日重磅报道,小米全新推出的YU7车型一经上市便引发市场热潮,其搭载的定制化4K云台摄像头更是成为车主们争相抢购的热门配置。这款摄像头不仅拥有800万像素高清传感器,更配备双轴云台转向系统,实现了车内外的全方位监控,甚至支持手势识别智能控车,为用户带来前所未有的交互体验和娱乐性。 然而部分用户在使用过程中反映,摄像头外壳在运行时温度较高,引发了关...
10:08
小米汽车最新一期"答网友问"深度解析YU7零重力座椅黑科技 8月5日,小米汽车官方发布最新一期互动问答,就备受关注的YU7前排零重力座椅功能作出详细解读。据悉,这款旗舰车型全系车型均支持主驾、副驾零重力座椅的付费选装,为用户带来前所未有的极致驾乘体验。 零重力座椅的核心优势在于通过科学调节实现人体重心均衡分布,带来类似漂浮的零重力状态,同时配备先进的...
09:30
近日 Cloudflare 发布了一份令人关注的报告揭露了人工智能搜索初创公司 Perplexity 在网络爬虫访问限制方面存在违规行为。根据 Cloudflare 揭示的信息 Perplexity 爬虫在遭遇网站设置的限制时会采取隐蔽身份的方式试图绕过这些障碍这些限制包括 robots.txt 文件中声明的规则以及 Web 应用程序防火墙(WAF)的设置。...
09:30
智谱公司隆重推出基于前沿大模型的开发效率革命性工具——Zread.ai,旨在以AI技术为开发者扫除在接手旧项目、撰写文档及理解开源项目过程中遭遇的常见难题。Zread.ai通过其核心功能,包括一键代码解析、智能知识生成和高效团队协作,为开发者带来前所未有的效率提升体验。 Zread.ai的核心价值主要体现在三大方面:深度解析开源项目、快速掌握历史代码库以...
09:30
OpenAI正为其旗舰产品ChatGPT推出一系列创新功能,旨在全面提升其作为实用工具的价值,而非单纯追求用户参与度或点击量。该公司明确表示,真正的成功标准在于用户是否愿意反复使用并从中获得实际收益。通过强化工具的实用性,OpenAI坚信用户将更愿意为其付费使用。 ### 增强用户时间管理和心理健康支持 为了帮助用户更科学地管理使用时间,OpenAI计划在长...
09:30
近日,Google 安全副总裁 Heather Adkins 在一场重要活动中正式宣布,其尖端人工智能驱动的漏洞研究员 Big Sleep 已成功在多款广受欢迎的开源软件中识别并报告了20个关键安全漏洞。这些漏洞主要集中在音频和视频处理的核心库 FFmpeg 以及图像处理软件 ImageMagick 等关键项目中,对软件生态安全构成潜在威胁。 Big Sle...
09:30
近期国家安全部发布重要警告,提醒社会各界高度关注人工智能领域的数据污染问题。随着AI技术在社会经济中的广泛应用,数据质量已成为决定AI性能的关键因素。国家安全部强调,虚假信息、偏见观点等不良数据正严重威胁AI系统的正常运行,为社会发展埋下新的安全隐患。 人工智能的核心要素包括算法、算力和数据,其中数据质量直接影响AI模型的训练效果。优质数据能够帮助AI系统精...