开源了一个 GEO 站点审计工具:你的网站对 AI 搜索引擎可见吗?

4 阅读4分钟

65% 的网站在不知情的情况下屏蔽了 AI 爬虫。你的站点可能对 ChatGPT、Gemini、Claude 完全不可见——而你根本不知道。

我想找一个开源工具来审计网站的 AI 搜索就绪状态,找了一圈没找到。所以自己写了一个。

GEO 是什么?

GEO(Generative Engine Optimization,生成式引擎优化),简单说就是 AI 时代的 SEO。

当用户问 ChatGPT「小团队用什么 CRM 好?」时,AI 不会返回一堆链接,而是从爬取的内容、结构化数据和知识图谱中提取信息,直接生成答案。

如果你的网站屏蔽了 AI 爬虫,或者缺少结构化数据,你的品牌在这个答案里就不存在。

几个数据感受一下:

  • AI 搜索流量同比增长 527%
  • 93% 的 AI 搜索会话不会产生任何外链点击
  • 屏蔽 GPTBot 的网站,在 ChatGPT 回答中被引用的频率降低 73%

工具检测什么?

rankweave-geo-audit 从 4 个维度评估你的网站:

1. AI 爬虫访问(权重 30%)

检测 robots.txt 对 9 个主流 AI 爬虫的放行状态:

GPTBot · ChatGPT-User · OAI-SearchBot · ClaudeBot · Claude-Web · Google-Extended · PerplexityBot · Bytespider · CCBot

约 5% 的域名屏蔽了 GPTBot,而头部新闻网站中这个比例高达 62%。很多站长的 robots.txt 是多年前配置的,那时候 AI 搜索还不存在。

2. 结构化数据(权重 25%)

检测首页是否有 JSON-LD,以及覆盖了多少 Schema.org 类型(Organization、WebSite、Product、FAQPage、Article、BreadcrumbList)。

数据说话:当内容包含结构化数据时,GPT-4 的准确率从 16% 跃升到 54%

⚠️ 注意:GPTBot、ClaudeBot 等 AI 爬虫不执行 JavaScript。如果你的 JSON-LD 是通过 GTM 或 React 客户端注入的,AI 爬虫完全看不到。

3. 知识图谱(权重 20%)

检测品牌是否存在于 Wikidata、英文 Wikipedia、中文 Wikipedia 和百度百科。

AI 模型把知识图谱当作事实性回答的真相来源。ChatGPT 说「Notion 是一款 2013 年创立的生产力工具」,这条信息大概率来自 Wikidata,不是 Notion 官网。

4. 内容基础(权重 25%)

9 项检查:HTTPS、<title>、meta description、OG 标签、H1、正文长度(>500 字符)、博客链接、FAQ 链接。

怎么用?

npm install rankweave-geo-audit
import { audit } from 'rankweave-geo-audit';

const result = await audit({
  domain: 'example.com',
  companyName: 'Example Inc',
});

console.log(result.overallScore);       // 0-100
console.log(result.dimensions);         // 4 个维度的分数和详情
console.log(result.recommendations);    // 中英文双语优化建议

返回一个结构化的结果对象,包含总分(0-100)、各维度明细和可操作的优化建议。

评分公式

总分 = 爬虫访问 × 30% + 结构化数据 × 25% + 知识图谱 × 20% + 内容基础 × 25%
维度满分构成
爬虫访问(允许数 / 9) × 100
结构化数据JSON-LD 存在 30 分 + Schema 类型匹配最高 70 分
知识图谱Wikidata 40 + Wiki EN 25 + Wiki ZH 20 + 百度百科 15
内容基础HTTPS 10 + title 15 + desc 15 + OG 15 + H1 10 + 内容 20 + 博客 10 + FAQ 5

所有权重和检测规则完全透明,没有黑箱。

技术实现

几个设计决策:

  • 仅 1 个依赖cheerio 做 HTML 解析,HTTP 用 Node 18+ 内置 fetch
  • 并行执行 — 爬虫检测 + 知识图谱查询 + 首页抓取通过 Promise.all 并发
  • 纯函数 — 无数据库、无框架,audit(options) → 结果对象
  • ESM + TypeScript — 完整类型定义,支持 tree-shaking
  • 进度回调onProgress 参数,方便在 UI 中展示实时进度

为什么开源?

GEO 还是一个很年轻的领域,行业缺乏一个公开透明的评分标准。大多数工具都把评分方法藏在黑箱里。

如果 GEO 生态要走向成熟,从业者需要一个开放的、可审计的评分基准。所以我把评分算法、维度权重、检测规则全部开源,任何人都可以查看、运行和改进。

觉得某个维度权重不对?有新的 AI 爬虫需要加入?欢迎提 Issue 或 PR。

它不做什么

这个工具检测的是技术基础——AI 搜索引擎能不能爬取和理解你的网站。

它不会告诉你 ChatGPT 是不是真的在回答中提到了你的品牌。那需要实时查询 AI 引擎,是另一个问题。


MIT 协议,欢迎 Star 和 PR。

跑完你的网站如果发现了什么有趣的结果,评论区聊聊。