谷歌AI概览准确率90%却易受虚假信息影响引争议

微新创想:《纽约时报》近日报道,谷歌的 AI 概览(AI Overviews)准确率约为 90%。这一数据的背后是每年超过 5 万亿次的搜索量,意味着每小时可能会生成超过 5700 万条错误答案,平均每分钟接近 100 万条错误信息。

微新创想:初创公司 Oumi 对谷歌搜索进行评估,采用 SimpleQA 基准分析了 4326 次搜索结果。结果显示,谷歌的 Gemini 2 在去年 10 月的准确率为 85%,而到今年 2 月,Gemini 3 这一数字提升至 91%。

微新创想:然而,Oumi 的评估方法主要依赖于 AI 工具,这可能导致数据偏差。此外,谷歌对同一搜索查询可能生成不同的概览,增加了结果的不确定性。

微新创想:具体来看,AI 概览与原始信息来源不符的比例已从 Gemini 2 的 37% 上升至 Gemini 3 的 56%。这意味着用户在看到某些概览时,往往会发现与之不符的链接或者准确的概览中却引用了错误的信息。

微新创想:有记者甚至发布虚假博客后,谷歌在次日的概览中引用了相关内容,显示出 AI 概览容易被操纵。此外,用户斯蒂芬・潘瓦西在搜索摔跤手胡克・霍根(Hulk Hogan)的死讯时,AI 概览明确表示 “没有可信报告显示霍根已去世”,但页面下方却出现了 “霍根之死谜团加深” 的文章标题。

微新创想:这一自相矛盾的现象引发了用户对 AI 生成内容的可靠性质疑。面对这些问题,谷歌发言人对 Oumi 的测试方法提出了质疑,认为其评估并未能真实反映搜索行为。

最新快讯

2026年04月08日

16:11
微新创想:国家邮政局于4月8日公布了2025年快递服务满意度调查结果。数据显示,全国快递服务公众满意度得分为85.0分,相比2024年有所提升,增加了0.4分。这表明消费者对快递服务的整体认可度在不断提高。 调查范围涵盖了全国主要的快递品牌,结果显示快递行业的服务质量正在稳步改善。在时效性方面,全程平均时限为51.22小时,相比去年缩短了2.66小时。这一变...
16:11
微新创想:2026年4月,苹果公司与三星显示(SDC)签署为期三年的独家协议,约定仅向SDC采购折叠屏iPhone所用OLED面板。这一合作标志着苹果在折叠屏技术上的重要布局,同时也为三星显示提供了更稳定的市场订单。 协议由三星显示主动提出,旨在为其向三星电子MX部门竞争对手供货提供集团内协调依据。此举不仅有助于三星显示在供应链上的战略调整,也为三星电子在折...
16:11
微新创想:OPPO将于2026年4月21日19:00全球首发Watch X3 Mini智能手表 OPPO正式宣布将在2026年4月21日19:00举行全球发布会,正式推出全新一代智能手表产品Watch X3 Mini。这款手表被赋予了“超美小金表”的独特定位,旨在为用户提供兼具时尚外观与强大功能的智能穿戴体验。 Watch X3 Mini主打多项实用健康与生...
16:11
微新创想:4月8日,浙江金华市邮政分公司率先在全省邮政系统投入4辆新能源重卡,用于邮路运输。此举旨在推进低碳化、智能化、高效化物流升级。为保障运行,金华邮政已建成6个充电车位,配备4台120千瓦充电桩及8把充电枪。 微新创想:目前,宁波、台州、金华三地首批共15个120千瓦快充位已建成,单次充电约1小时即可充满。后续将持续增设充电桩,夯实绿色运输硬件基础。
16:11
微新创想:AYANEO Pocket AIR Mini Android掌机全系型号官方售价自4月9日起上调100元。此次价格调整涵盖了多个配置版本,包括2GB RAM + 32GB存储的型号,原价599元现调整为699元;3GB RAM + 64GB存储的型号,原价699元现调整为799元;以及与B.Duck联名的特别版本,原价799元现调整为899元。 此...
16:11
微新创想:2026年4月,R星正为其PC端Rockstar Games Launcher开发全新聊天功能。该功能采用类似Steam悬浮窗的overlay技术,支持玩家在不同游戏中实时通信。此举意在替代已于2025年9月15日移除的Social Club内置聊天系统。 此前下线或与欧洲新年龄验证法规有关。这一变化引发了玩家社区的广泛关注,许多人对R星的社交功能...
16:11
微新创想:哔哩哔哩(B站)宣布将于4月10日起在App端上线播放页暂停广告功能。这一新功能将在用户手动暂停视频时,以一定概率触发展示。广告内容将出现在播放器下方,并明确标注“广告”字样,方便用户识别。同时,用户可以随时点击广告右上角的“X”按钮进行关闭,操作便捷。 此次推出暂停广告功能,是B站在探索更精细化广告投放策略的一部分。通过在用户暂停视频时插入广告,...
16:11
微新创想:2026年4月,美国膨化休闲食品品牌Cadootz!宣布完成300万美元种子轮融资,Selva Ventures领投。此次融资标志着该品牌在市场拓展和产品发展方面迈出了重要一步。Cadootz!专注于有机咸味饼干系列,其产品包括切达干酪、海盐和牧场三种口味,深受健康饮食爱好者的青睐。 微新创想:每份产品提供5克蛋白质,不仅满足消费者对营养的需求,也...
16:11
微新创想:2026年4月8日,TikTok宣布将在芬兰拉赫蒂投资10亿欧元新建一座数据中心。此举是其总规模达120亿欧元的‘三叶草计划’(Project Clover)关键一环,旨在提升欧洲用户数据处理与安全保护能力。 该中心将成为TikTok在芬兰的第二座十亿级数据中心,首座位于科沃拉,目前正按计划建设中。项目将强化TikTok在欧盟的数据本地化合规布局,...
16:11
微新创想:2026年4月8日,大众点评正式发布年度“必住榜”,全国205个城市共1418家酒店上榜。杭州、北京、上海等十城上榜酒店数量居前,显示出这些城市在住宿领域的强大竞争力。 本次榜单新增潮州、阿勒泰、湘西等91个发榜城市及区县,覆盖范围显著扩大。这一变化不仅反映了大众点评对市场趋势的精准把握,也体现了对小众旅游地、周边度假目的地及新兴文旅城市的高度重视...
16:11
微新创想:4月8日,据消息人士透露,Stellantis集团正与零跑汽车就联合开发欧宝(Opel)品牌电动SUV展开深入谈判。此次合作将聚焦于欧洲市场,双方计划共同主导技术研发与平台适配工作。项目预计将在2028年启动量产,初期目标年产能为5万辆。这一举措标志着Stellantis在欧洲主流纯电市场布局的进一步加速,同时也希望通过引入零跑的智能电动技术,提升...
15:37
微新创想:2026年4月8日,智元机器人正式推出Genie Sim3.0一站式仿真开发平台。该平台覆盖环境生成、场景泛化、数据采集与模型评测全流程,支持自然语言和图像一键构建可交互三维世界,生成速度达到分钟级。 微新创想:平台内置Genie Sim Benchmark,针对语言理解、空间认知等五大核心能力提供系统化的评测体系,帮助开发者全面评估模型性能。 微...