【新智元导读】在幽默创意视频中,人类总能找到快乐,这种愉悦感源于对反直觉现象的天然理解和发现能力。然而,计算机视觉模型在理解视频中的幽默、创造力等反常识元素时仍面临挑战。现有视频问答(VideoQA)数据集往往局限于简单任务和常见视频,难以评估模型对反直觉内容的理解能力。本文将深入探讨FunQA——一个由4300个趣味视频和312000个人工注释问答对组成的高质量视频问答数据集,它将推动AI模型在视频理解、反常识推理和幽默感生成方面的突破。
FunQA数据集包含三个子集:HumorQA、CreativeQA和MagicQA,每个子集都聚焦于不同来源但具有共同特征——令人惊讶的视频内容。幽默视频中的意外对比、创意视频中的耐人寻味的伪装、魔术视频中的不可能表演,这些反直觉元素构成了FunQA的核心。研究者设计了三个严格任务来评估模型能力:1)反直觉时间戳定位,要求精确标注意外事件发生时段;2)详细视频描述,需生成连贯客观的文本;3)反直觉推理,要求解释视频中的惊讶原理。此外还包含为视频起标题等辅助任务。
FunQA的构建遵循三大原则:以视觉为中心、强调反直觉推理、强化时空推理能力。数据集涵盖4365个视频(总时长23.9小时,平均片段19秒),来自三种艺术流派,问答对数量达311950个。统计数据显示,三种类型视频的时间戳热图揭示了答案分布规律,自由文本答案平均长度达34.24词,远超现有VideoQA数据集。标注一致性评估显示,90%以上注释高度一致,仅1%存在低一致性,8%呈现共识变化,体现了数据集的客观性。
与其他基准相比,FunQA在评估反直觉视频理解方面具有独特优势:1)深度时空推理,要求模型先理解典型场景再识别幽默偏差;2)丰富注释,平均34词的文本答案支持更细致的模型响应;3)探索幽默感,这是首个关注幽默原理的视频问答数据集。实验测试了7个视频问答模型,涵盖基于caption和instruction两类方法。结果显示,时间戳定位任务最具挑战性,多数模型表现不佳;所有任务均无明确赢家,caption模型描述能力强但推理弱,instruction模型推理强但描述差;创意视频理解表现最差;传统评估指标在自由文本任务中效果有限,GPT-4展现出一定深度理解能力但存在波动;微调后的Otter在传统指标上表现良好,但GPT-4评分落后。
研究分析发现:1)时间戳定位任务最困难,caption模型忽略时序信息,instruction模型仅依赖特定帧;2)模型在描述和推理任务间存在显著性能差距;3)创意视频理解能力普遍不足;4)传统评估指标在自由文本任务中失效;5)Otter的输入帧数限制导致传统指标与GPT-4评分差异。针对这些挑战,研究者提出:1)扩大模型参数规模;2)提升数据质量;3)优化训练策略;4)探索模型协作机制。
当前FunQA的局限性在于:1)注释深度不足,可引入更精细的空间时间标注;2)中文注释翻译可能存在文化差异。未来将扩展注释深度,探索更完善的评估指标,为模型向深度视频推理发展提供方向。基于FunQA的算法大赛已于2023年7月启动,奖金高达100万美元,详情可访问https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50154a0ed647faca623a&award=1,000,000。
