AI喜剧之王悬赏百万：北邮南洋理工发布沙雕视频数据集FunQA，用算法解锁人类幽默

2023-09-12 09:45:08 互联网 134 次阅读

【新智元导读】在幽默创意视频中，人类总能找到快乐，这种愉悦感源于对反直觉现象的天然理解和发现能力。然而，计算机视觉模型在理解视频中的幽默、创造力等反常识元素时仍面临挑战。现有视频问答（VideoQA）数据集往往局限于简单任务和常见视频，难以评估模型对反直觉内容的理解能力。本文将深入探讨FunQA——一个由4300个趣味视频和312000个人工注释问答对组成的高质量视频问答数据集，它将推动AI模型在视频理解、反常识推理和幽默感生成方面的突破。

FunQA数据集包含三个子集：HumorQA、CreativeQA和MagicQA，每个子集都聚焦于不同来源但具有共同特征——令人惊讶的视频内容。幽默视频中的意外对比、创意视频中的耐人寻味的伪装、魔术视频中的不可能表演，这些反直觉元素构成了FunQA的核心。研究者设计了三个严格任务来评估模型能力：1）反直觉时间戳定位，要求精确标注意外事件发生时段；2）详细视频描述，需生成连贯客观的文本；3）反直觉推理，要求解释视频中的惊讶原理。此外还包含为视频起标题等辅助任务。

FunQA的构建遵循三大原则：以视觉为中心、强调反直觉推理、强化时空推理能力。数据集涵盖4365个视频（总时长23.9小时，平均片段19秒），来自三种艺术流派，问答对数量达311950个。统计数据显示，三种类型视频的时间戳热图揭示了答案分布规律，自由文本答案平均长度达34.24词，远超现有VideoQA数据集。标注一致性评估显示，90%以上注释高度一致，仅1%存在低一致性，8%呈现共识变化，体现了数据集的客观性。

与其他基准相比，FunQA在评估反直觉视频理解方面具有独特优势：1）深度时空推理，要求模型先理解典型场景再识别幽默偏差；2）丰富注释，平均34词的文本答案支持更细致的模型响应；3）探索幽默感，这是首个关注幽默原理的视频问答数据集。实验测试了7个视频问答模型，涵盖基于caption和instruction两类方法。结果显示，时间戳定位任务最具挑战性，多数模型表现不佳；所有任务均无明确赢家，caption模型描述能力强但推理弱，instruction模型推理强但描述差；创意视频理解表现最差；传统评估指标在自由文本任务中效果有限，GPT-4展现出一定深度理解能力但存在波动；微调后的Otter在传统指标上表现良好，但GPT-4评分落后。

研究分析发现：1）时间戳定位任务最困难，caption模型忽略时序信息，instruction模型仅依赖特定帧；2）模型在描述和推理任务间存在显著性能差距；3）创意视频理解能力普遍不足；4）传统评估指标在自由文本任务中失效；5）Otter的输入帧数限制导致传统指标与GPT-4评分差异。针对这些挑战，研究者提出：1）扩大模型参数规模；2）提升数据质量；3）优化训练策略；4）探索模型协作机制。

当前FunQA的局限性在于：1）注释深度不足，可引入更精细的空间时间标注；2）中文注释翻译可能存在文化差异。未来将扩展注释深度，探索更完善的评估指标，为模型向深度视频推理发展提供方向。基于FunQA的算法大赛已于2023年7月启动，奖金高达100万美元，详情可访问https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50154a0ed647faca623a&award=1，000，000。

2025年11月21日

14:13

AI喜剧之王悬赏百万：北邮南洋理工发布沙雕视频数据集FunQA，用算法解锁人类幽默

最新快讯

2025年11月21日

腾讯元宝新功能：一句话一张图秒变视频

腾讯HunyuanVideo1.5发布降低视频创作门槛

上海充电新能源车遭窃警方火速截获嫌疑人

鸿海全新MODEL A电动汽车发布 B级MPV搭载先进AI技术

北京两地块出让总揽金32.7亿创区域新纪录

军航医疗获千万天使轮融资加速慢病服务平台建设

鸿海刘扬伟：AI产品转移美国提升区域化供应能力

广州3宗宅地挂牌总价42.71亿12月出让市场放量

具识智能完成Pre-A轮引战投加速insightOS技术落地

孟加拉国5.1级地震发生震源深度10千米暂无伤亡

AI应用午后走强易点天下视觉中国涨停板块升温

小鹏IRON剪腿版车展成网红老外卷裤腿打卡人形机器人