报告发现:谷歌AI概览经常在向你“撒谎”

2 阅读2分钟

\n\n最新报告显示,谷歌AI概览准确率为90%,意味着每小时产生大量错误信息。虽然Gemini 3准确率有所提升,但其来源引用的错误率大幅上升,谷歌对此结果表示质疑。

译自:Google's AI Summaries Are Regularly Lying to You, Report Finds

作者:Jon Martindale

AI幻觉并不是什么新鲜事,但最近的一项调查发现,谷歌 AI 概览(AI Overviews)搜索结果的准确率为 90%。虽然这是一个很高的比例,但也意味着每小时有数千万个搜索结果可能是彻头彻尾的错误。

来自 《纽约时报》 和 AI 初创公司 Oumi 的报告发现,每 10 个谷歌查询中就有一个会产生至少一条包含错误信息的摘要;而在信息正确的案例中,有一半的案例链接到了并不支持摘要主张的来源。

至少谷歌的 AI 摘要似乎也承认自己不可靠。(图片来源:Jon Martindale 通过 Google 截取)

情况有所改善,但幅度不大。Oumi 的分析发现,在 2025 年 10 月进行的 4,326 次搜索中,Gemini 2 产生准确回答的概率约为 85%。今年 2 月,使用 Gemini 3 进行相同测试时,准确率提高到了 91%。

然而,摘要的溯源质量在 Gemini 3 上有所下降。Oumi 的数据表明,Gemini 2 去年产生错误来源链接的概率为 37%,而到 2026 年,这一比例已上升至 56% 以上。Oumi 认为,这可能是因为 Gemini 的 AI 摘要最常引用的两个来源是 Facebook 和 Reddit

《纽约时报》的报告还展示了一名 BBC 记者如何利用他们创建的一篇故意误导的文章来“毒化”AI。谷歌的摘要机器人上钩了,并在 24 小时内重复了来自源文章的虚假信息。

谷歌对这些结果表示异议,并指出 Oumi 使用了 SimpleQA 基准测试,这是由 OpenAI 开发的一种 AI 测试,其本身就包含错误信息。谷歌辩称,该测试并不能反映人们在谷歌上实际搜索的内容,且每个搜索查询的摘要可能有所不同。它还表示 Oumi 使用自己的 AI 系统来分析 AI 摘要,这反过来也可能导致错误。工智能