【新智元导读】在幽默创意视频中,人类总能找到快乐,这种愉悦感源于对反直觉现象的天然理解和发现能力。然而,计算机视觉模型在理解视频中的幽默、创造力等反常识元素时仍面临挑战。现有视频问答(VideoQA)数据集往往局限于简单任务和常见视频,难以评估模型对反直觉内容的理解能力。本文将深入探讨FunQA——一个由4300个趣味视频和312000个人工注释问答对组成的高质量视频问答数据集,它将推动AI模型在视频理解、反常识推理和幽默感生成方面的突破。

FunQA数据集包含三个子集:HumorQA、CreativeQA和MagicQA,每个子集都聚焦于不同来源但具有共同特征——令人惊讶的视频内容。幽默视频中的意外对比、创意视频中的耐人寻味的伪装、魔术视频中的不可能表演,这些反直觉元素构成了FunQA的核心。研究者设计了三个严格任务来评估模型能力:1)反直觉时间戳定位,要求精确标注意外事件发生时段;2)详细视频描述,需生成连贯客观的文本;3)反直觉推理,要求解释视频中的惊讶原理。此外还包含为视频起标题等辅助任务。

FunQA的构建遵循三大原则:以视觉为中心、强调反直觉推理、强化时空推理能力。数据集涵盖4365个视频(总时长23.9小时,平均片段19秒),来自三种艺术流派,问答对数量达311950个。统计数据显示,三种类型视频的时间戳热图揭示了答案分布规律,自由文本答案平均长度达34.24词,远超现有VideoQA数据集。标注一致性评估显示,90%以上注释高度一致,仅1%存在低一致性,8%呈现共识变化,体现了数据集的客观性。

与其他基准相比,FunQA在评估反直觉视频理解方面具有独特优势:1)深度时空推理,要求模型先理解典型场景再识别幽默偏差;2)丰富注释,平均34词的文本答案支持更细致的模型响应;3)探索幽默感,这是首个关注幽默原理的视频问答数据集。实验测试了7个视频问答模型,涵盖基于caption和instruction两类方法。结果显示,时间戳定位任务最具挑战性,多数模型表现不佳;所有任务均无明确赢家,caption模型描述能力强但推理弱,instruction模型推理强但描述差;创意视频理解表现最差;传统评估指标在自由文本任务中效果有限,GPT-4展现出一定深度理解能力但存在波动;微调后的Otter在传统指标上表现良好,但GPT-4评分落后。

研究分析发现:1)时间戳定位任务最困难,caption模型忽略时序信息,instruction模型仅依赖特定帧;2)模型在描述和推理任务间存在显著性能差距;3)创意视频理解能力普遍不足;4)传统评估指标在自由文本任务中失效;5)Otter的输入帧数限制导致传统指标与GPT-4评分差异。针对这些挑战,研究者提出:1)扩大模型参数规模;2)提升数据质量;3)优化训练策略;4)探索模型协作机制。

当前FunQA的局限性在于:1)注释深度不足,可引入更精细的空间时间标注;2)中文注释翻译可能存在文化差异。未来将扩展注释深度,探索更完善的评估指标,为模型向深度视频推理发展提供方向。基于FunQA的算法大赛已于2023年7月启动,奖金高达100万美元,详情可访问https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50154a0ed647faca623a&award=1,000,000。

最新快讯

2026年02月11日

06:50
微新创想:2026年2月11日,贝莱德中国、富达国际等多家外资机构表示在全球市场震荡加剧的背景下,未来3至5年将逐步降低对美元资产的集中配置,转向更加多元化的资产布局。这一趋势反映出国际投资者对于单一货币资产配置风险的担忧,以及对全球市场结构调整的适应。 微新创想:中国资产因其完整的产业链、强大的创新能力以及相对具吸引力的估值水平,正受到持续增持的青睐。外资...
05:34
微新创想:2026年2月11日,黑石集团宣布投资2亿美元参与人工智能公司Anthropic新一轮融资。据知情人士透露,按3500亿美元估值计算,黑石对Anthropic的持股总规模升至约10亿美元。这表明黑石集团对Anthropic的技术实力和未来发展前景充满信心。 Anthropic总部位于美国旧金山,专注于开发Claude系列大语言模型。公司自成立以来,...
05:34
微新创想:2月11日凌晨4时44分,斐济群岛地区发生了一次6.2级左右的地震。根据中国地震台网的自动测定,此次地震的震中位于南纬20.99度,西经178.42度。地震的震源深度属于深源,这意味着地震能量释放的位置较深,通常对地表的影响相对较小。 此次地震发生后,相关部门迅速进行了监测和评估。目前尚未发布海啸预警,表明地震可能不会引发大规模的海啸灾害。同时,地...
04:29
微新创想:2026年2月11日,阿布扎比投资机构MGX据称正接近参与人工智能公司Anthropic的新一轮融资。该交易涉及阿联酋阿布扎比与美国加州(Anthropic总部所在地)之间的资本合作。MGX与Anthropic的合作将有助于推动中东地区在全球人工智能领域中的影响力。 此次投资被认为是对Anthropic现有业务模式的重要补充。Anthropic作为...
02:56
微新创想:2026年2月11日 美国科技巨头Alphabet在欧洲市场完成债券发售 累计募资110亿美元 此举使其2026年以来全球债券发行总额达300.1亿美元 发债地点为欧洲主要金融中心 发行主体为Alphabet Inc. 资金将用于一般公司用途 包括回购股票 偿还到期债务及营运资本补充 此次发债反映其在低利率环境下优化资本结构的战略意图 亦显示国际投...
01:51
微新创想:2026年2月11日 特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人 此次调整自即日起生效 公司表示此举旨在整合区域销售资源 强化全球市场协同与交付效率 乔·沃德自2019年起在特斯拉任职 历任英国 德国等多国销售高管 具备丰富的国际市场管理经验 公司强调此次任命不涉及组织架构大规模变动 原有区域销售团队保持稳定运行 以确...
00:13
微新创想:2026年2月10日,吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型,车身加长60mm,风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计,彰显出中国智造的独特魅力。 搭载EM-i插混系统,该车型提供两种电池版本,纯电续航最高可达225km。满油满电综合续航达到1730km,大幅提升了用户...
00:13
微新创想:2026年2月,奥迪在中国市场启动入华以来规模最大的产品攻势,全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式,涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。 微新创想:行动旨在应对豪华车市场电动化转型趋势,延续油电并进策略,依托PPC燃油平台与PPE纯电平台,强化本土化智能座舱与驾驶辅助系统适配。 微新...
00:13
微新创想:据Insider Gaming编辑Tom Henderson在2月7日的播客中透露,R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注,更旨在配合Take-Two当季的财报电话会议,通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...
00:13
微新创想:2026年2月10日 卡普空《生化危机5》Xbox Series版现身ESRB官网 标注含“内购”内容 暗示为完整重制版 2026年2月10日 卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网 并标注了“内购”内容 这一举动引发了玩家对游戏版本的猜测 认为可能是完整重制版 虽未列PS5版 但索尼定于2月13日举行State of...

2026年02月10日

23:12
微新创想:2026年2月10日,深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳,拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。 递表标志着该公司迈出港股上市关键一步,旨在拓展资本市场融资渠道,支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业,第零智能近...
23:12
微新创想:2026年2月10日,摩根大通策略师Dubravko Lakos-Bujas团队指出,市场对AI短期颠覆软件行业的担忧不切实际,软件股正迎来反弹契机 该行认为,近期无差别抛售已导致板块估值处于历史低位,叠加持仓出清、悲观情绪过度及基本面稳健,风险平衡转向上行 建议投资者增配高质量、抗AI颠覆能力强的软件股 此次调整源于市场担忧AI工具冲击传统Saa...