搜索引擎是如何做到“秒级响应十亿网页”的？每天，我们在 Google、百度、Elasticsearch 中输入关键词，毫

对技术人员而言，搜索引擎不是魔法——而是一套精心设计的数据结构与系统工程

每天，我们在 Google、百度、Elasticsearch 中输入关键词，毫秒级获得结果。背后支撑这一能力的，并非“实时遍历全网”，而是一套高效、可扩展的离线索引 + 在线检索架构。

今天，我们就以一个极简示例切入，深入剖析搜索引擎最核心的底层机制：倒排索引（Inverted Index），并延伸至实际工程中的关键技术点——分词、压缩、跳表、相关性排序等。

📚 场景还原：从“找书”到“找网页”

假设你管理一个小型文档库，有 3 篇文档：

用户搜索 “人工智能”，你希望快速返回 Doc1 和 Doc2。

每次查询都遍历所有文档，逐字匹配。时间复杂度：O(N × L)，N=文档数，L=平均长度。当 N = 10⁹（十亿级），这显然不可行。

我们提前建立一张映射表：

注：文档 ID 通常用整数表示（如 Doc1 → ID=1）

当查询 “人工智能” 时，只需：

整个过程与文档总量无关，查询复杂度接近常数。

这就是搜索引擎的第一块基石。

英文天然以空格分词，但中文没有显式边界。 “人工智能改变世界” ≠ 4 个字符，而是应切分为：["人工智能", "改变", "世界"]。

💡 实践建议：Elasticsearch 默认使用 standard 分词器，中文场景常需集成 ik 或 jieba 插件。

原始 posting list 是 [1, 2, 5, 10, 15, ...]，但真实场景中：

Delta 编码（差值编码） 将 [1000001, 1000002, 1000005] 存为 [1000001, 1, 3]，大幅减少数值大小。
压缩算法 使用 VarInt、PForDelta、Roaring Bitmap 等压缩 posting list，节省 50%~90% 空间。
跳表（Skip List）加速求交 当用户搜 “人工智能工具”，需对两个 posting list 求交集。若直接遍历，复杂度 O(m+n)。通过在 posting list 中每隔 √n 项加一个“跳点”，可将求交加速到 O(√n)。

📌 Elasticsearch/Lucene 底层就使用了 skip data 来优化布尔查询（AND/OR）。

倒排索引解决的是 召回（Recall） 问题，但用户要的是 最相关的结果（Ranking）。

Lucene 引入 TF-IDF + BM25 作为默认打分模型：

现代搜索引擎还会融合：

但注意：排序通常在召回之后进行，即先用倒排索引找出候选集（如 top 10,000），再精排。

搜索引擎 = 离线索引构建 + 在线检索服务

[爬虫] → [文档解析] → [分词] → [构建倒排索引] → [持久化存储]
                                                      ↓
[用户查询] → [分词] → [查倒排索引] → [求交/并] → [打分排序] → [返回结果]

💡 Lucene 将索引划分为多个 Segment，新数据写入新 Segment，查询时合并结果。这实现了“近实时”（NRT）搜索。

倒排索引是这一切的起点——它把“从文档找词”转化为“从词找文档”，实现了从 O(N) 到 O(1) 的飞跃。