
微新创想:《纽约时报》近日报道,谷歌的 AI 概览(AI Overviews)准确率约为 90%。这一数据的背后是每年超过 5 万亿次的搜索量,意味着每小时可能会生成超过 5700 万条错误答案,平均每分钟接近 100 万条错误信息。
微新创想:初创公司 Oumi 对谷歌搜索进行评估,采用 SimpleQA 基准分析了 4326 次搜索结果。结果显示,谷歌的 Gemini 2 在去年 10 月的准确率为 85%,而到今年 2 月,Gemini 3 这一数字提升至 91%。
微新创想:然而,Oumi 的评估方法主要依赖于 AI 工具,这可能导致数据偏差。此外,谷歌对同一搜索查询可能生成不同的概览,增加了结果的不确定性。
微新创想:具体来看,AI 概览与原始信息来源不符的比例已从 Gemini 2 的 37% 上升至 Gemini 3 的 56%。这意味着用户在看到某些概览时,往往会发现与之不符的链接或者准确的概览中却引用了错误的信息。
微新创想:有记者甚至发布虚假博客后,谷歌在次日的概览中引用了相关内容,显示出 AI 概览容易被操纵。此外,用户斯蒂芬・潘瓦西在搜索摔跤手胡克・霍根(Hulk Hogan)的死讯时,AI 概览明确表示 “没有可信报告显示霍根已去世”,但页面下方却出现了 “霍根之死谜团加深” 的文章标题。
微新创想:这一自相矛盾的现象引发了用户对 AI 生成内容的可靠性质疑。面对这些问题,谷歌发言人对 Oumi 的测试方法提出了质疑,认为其评估并未能真实反映搜索行为。
