23-🔎数据结构与算法核心知识 | 查找算法: 数据检索的核心算法理论与实践查找是计算机科学中最频繁的操作之一。根据G

mindmap
  root((查找算法))
    理论基础
      定义与分类
        线性查找
        二分查找
        哈希查找
      历史发展
        古代查找
        二分查找
        哈希查找
    线性查找
      顺序查找
        On复杂度
        简单实现
      哨兵查找
        优化版本
        减少比较
    二分查找
      标准二分查找
        有序数组
        Olog n
      变种二分查找
        查找边界
        旋转数组
      插值查找
        自适应
        均匀分布
    哈希查找
      哈希表查找
        O1平均
        冲突处理
      完美哈希
        无冲突
        静态数据
    树形查找
      BST查找
        Olog n
        有序查找
      B树查找
        多路查找
        数据库索引
    字符串查找
      KMP算法
        模式匹配
        On加m
      Boyer_Moore
        从右到左
        跳跃优化
      Rabin_Karp
        哈希匹配
        滚动哈希
    工业实践
      搜索引擎
        倒排索引
        全文搜索
      数据库查询
        B加树索引
        哈希索引
      缓存系统
        快速查找
        O1访问

一、前言

1. 研究背景

查找是计算机科学中最频繁的操作之一。根据Google的研究，查找操作占数据库查询的80%以上，占搜索引擎请求的100%。从数据库索引到缓存系统，从文本搜索到模式匹配，查找算法无处不在。

查找算法的选择直接影响系统性能。数据库使用B+树索引实现O(log n)查找，搜索引擎使用倒排索引实现快速检索，缓存系统使用哈希表实现O(1)查找。

2. 历史发展

古代：线性查找（最原始的方法）
1946年：二分查找提出
1950s：哈希查找出现
1970s：KMP字符串匹配算法
1990s至今：各种优化和变体

二、概述

1. 什么是查找

查找（Search）是在数据集合中定位特定元素的过程。查找算法的目标是在尽可能短的时间内找到目标元素，或确定其不存在。

2. 查找算法的分类

线性查找：顺序遍历，O(n)
二分查找：有序数组，O(log n)
哈希查找：哈希表，O(1)平均
树形查找：BST/B树，O(log n)
字符串查找：KMP等，O(n+m)

三、查找算法的理论基础

1. 查找问题的形式化定义（根据CLRS定义）

定义：

查找问题是一个函数： $Search: S \times X \rightarrow \{0, 1, ..., n-1\} \cup \{\bot\}$

其中：

S是数据集合，S = {s₁, s₂, ..., sₙ}
X是目标元素的集合
如果x ∈ S，返回x在S中的位置i
如果x ∉ S，返回特殊值⊥（表示未找到）

输入：

数据集合S = {s₁, s₂, ..., sₙ}
目标元素x

输出：

如果x ∈ S，返回x的位置i，使得sᵢ = x
如果x ∉ S，返回-1或NULL

学术参考：

CLRS Chapter 2: Getting Started
Knuth, D. E. (1997). The Art of Computer Programming, Volume 3. Section 6.1: Sequential Searching

2. 查找复杂度下界（信息论证明）

定理（根据信息论）：在无序数组中查找，最坏情况需要Ω(n)次比较。

证明（信息论方法）：

信息量：确定元素是否在集合中需要log₂(n+1)位信息（n个位置+不存在）
每次比较：每次比较最多提供1位信息
下界：至少需要log₂(n+1) ≈ log₂ n次比较

对于有序数组：

二分查找下界：Ω(log n)
证明：n个元素有n+1个可能的位置（包括不存在），需要log₂(n+1)位信息

学术参考：

CLRS Chapter 2.3: Designing algorithms
Knuth, D. E. (1997). The Art of Computer Programming, Volume 3. Section 6.2.1: Searching an Ordered Table

四、线性查找算法

1. 顺序查找（Sequential Search）

伪代码：顺序查找

ALGORITHM SequentialSearch(arr, target)
    FOR i = 0 TO arr.length - 1 DO
        IF arr[i] = target THEN
            RETURN i
    
    RETURN -1

时间复杂度：O(n) 空间复杂度：O(1)

2. 哨兵查找（Sentinel Search）

优化：在数组末尾添加哨兵，减少比较次数

伪代码：哨兵查找

ALGORITHM SentinelSearch(arr, target)
    last ← arr[arr.length - 1]
    arr[arr.length - 1] ← target  // 设置哨兵
    
    i ← 0
    WHILE arr[i] ≠ target DO
        i ← i + 1
    
    arr[arr.length - 1] ← last  // 恢复原值
    
    IF i < arr.length - 1 OR last = target THEN
        RETURN i
    ELSE
        RETURN -1

优化效果：每次循环减少一次比较（检查边界）

五、二分查找算法

1. 标准二分查找

前提：数组必须有序

伪代码：二分查找（递归）

ALGORITHM BinarySearchRecursive(arr, target, left, right)
    IF left > right THEN
        RETURN -1
    
    mid ← left + (right - left) / 2  // 避免溢出
    
    IF arr[mid] = target THEN
        RETURN mid
    ELSE IF arr[mid] > target THEN
        RETURN BinarySearchRecursive(arr, target, left, mid - 1)
    ELSE
        RETURN BinarySearchRecursive(arr, target, mid + 1, right)

伪代码：二分查找（迭代）

ALGORITHM BinarySearchIterative(arr, target)
    left ← 0
    right ← arr.length - 1
    
    WHILE left ≤ right DO
        mid ← left + (right - left) / 2
        
        IF arr[mid] = target THEN
            RETURN mid
        ELSE IF arr[mid] > target THEN
            right ← mid - 1
        ELSE
            left ← mid + 1
    
    RETURN -1

时间复杂度：O(log n) 空间复杂度：O(1)（迭代）或O(log n)（递归）

2. 查找边界（查找第一个/最后一个）

伪代码：查找第一个等于target的位置

ALGORITHM FindFirst(arr, target)
    left ← 0
    right ← arr.length - 1
    result ← -1
    
    WHILE left ≤ right DO
        mid ← left + (right - left) / 2
        
        IF arr[mid] = target THEN
            result ← mid
            right ← mid - 1  // 继续向左查找
        ELSE IF arr[mid] > target THEN
            right ← mid - 1
        ELSE
            left ← mid + 1
    
    RETURN result

3. 插值查找（Interpolation Search）

思想：根据目标值估计位置，而非总是取中点

伪代码：插值查找

ALGORITHM InterpolationSearch(arr, target)
    left ← 0
    right ← arr.length - 1
    
    WHILE left ≤ right AND target ≥ arr[left] AND target ≤ arr[right] DO
        // 插值公式
        pos ← left + (target - arr[left]) * (right - left) / (arr[right] - arr[left])
        
        IF arr[pos] = target THEN
            RETURN pos
        ELSE IF arr[pos] > target THEN
            right ← pos - 1
        ELSE
            left ← pos + 1
    
    RETURN -1

时间复杂度：

平均：O(log log n)（均匀分布）
最坏：O(n)

六、哈希查找算法

哈希表查找

特点：平均O(1)时间复杂度

伪代码：哈希表查找

ALGORITHM HashTableSearch(hashTable, key)
    hash ← Hash(key)
    index ← hash % hashTable.capacity
    
    // 处理冲突（链地址法）
    bucket ← hashTable.table[index]
    
    FOR EACH entry IN bucket DO
        IF entry.key = key THEN
            RETURN entry.value
    
    RETURN NULL

时间复杂度：

平均：O(1)
最坏：O(n)（所有元素冲突）

完美哈希（Perfect Hashing）

应用：静态数据集合，无冲突

伪代码：完美哈希查找

ALGORITHM PerfectHashSearch(perfectHash, key)
    // 完美哈希保证无冲突
    index ← perfectHash.hash(key)
    RETURN perfectHash.table[index]

时间复杂度：O(1)（最坏情况也是）

七、树形查找算法

1. BST查找

伪代码：BST查找

ALGORITHM BSTSearch(root, key)
    IF root = NULL OR root.key = key THEN
        RETURN root
    
    IF key < root.key THEN
        RETURN BSTSearch(root.left, key)
    ELSE
        RETURN BSTSearch(root.right, key)

时间复杂度：

平均：O(log n)
最坏：O(n)（退化为链表）

2. B树查找

伪代码：B树查找

ALGORITHM BTreeSearch(node, key)
    // 在节点中查找
    i ← 0
    WHILE i < node.keyCount AND key > node.keys[i] DO
        i ← i + 1
    
    IF i < node.keyCount AND node.keys[i] = key THEN
        RETURN node.values[i]
    
    // 如果是叶子节点，未找到
    IF node.isLeaf THEN
        RETURN NULL
    
    // 递归搜索子节点
    RETURN BTreeSearch(node.children[i], key)

时间复杂度：O(log n)（基于阶数m的对数）

八、字符串查找算法

1. KMP算法（Knuth-Morris-Pratt）

思想：利用已匹配信息，避免重复比较

伪代码：KMP算法

ALGORITHM KMPSearch(text, pattern)
    // 构建部分匹配表（前缀函数）
    lps ← BuildLPS(pattern)
    
    i ← 0  // text的索引
    j ← 0  // pattern的索引
    
    WHILE i < text.length DO
        IF text[i] = pattern[j] THEN
            i ← i + 1
            j ← j + 1
            
            IF j = pattern.length THEN
                RETURN i - j  // 找到匹配
        ELSE
            IF j ≠ 0 THEN
                j ← lps[j - 1]  // 利用已匹配信息
            ELSE
                i ← i + 1
    
    RETURN -1

ALGORITHM BuildLPS(pattern)
    lps ← Array[pattern.length]
    length ← 0
    i ← 1
    
    lps[0] ← 0
    
    WHILE i < pattern.length DO
        IF pattern[i] = pattern[length] THEN
            length ← length + 1
            lps[i] ← length
            i ← i + 1
        ELSE
            IF length ≠ 0 THEN
                length ← lps[length - 1]
            ELSE
                lps[i] ← 0
                i ← i + 1
    
    RETURN lps

时间复杂度：O(n + m)，n为文本长度，m为模式长度

2. Boyer-Moore算法

思想：从右到左匹配，利用坏字符和好后缀规则跳跃

伪代码：Boyer-Moore算法（简化）

ALGORITHM BoyerMooreSearch(text, pattern)
    // 构建坏字符表
    badChar ← BuildBadCharTable(pattern)
    
    s ← 0  // 文本中的偏移
    
    WHILE s ≤ text.length - pattern.length DO
        j ← pattern.length - 1
        
        // 从右到左匹配
        WHILE j ≥ 0 AND pattern[j] = text[s + j] DO
            j ← j - 1
        
        IF j < 0 THEN
            RETURN s  // 找到匹配
        ELSE
            // 根据坏字符规则跳跃
            s ← s + max(1, j - badChar[text[s + j]])
    
    RETURN -1

时间复杂度：

最好：O(n/m)
最坏：O(nm)

3. Rabin-Karp算法

思想：使用滚动哈希快速比较

伪代码：Rabin-Karp算法

ALGORITHM RabinKarpSearch(text, pattern)
    n ← text.length
    m ← pattern.length
    
    // 计算模式和文本第一个窗口的哈希值
    patternHash ← Hash(pattern)
    textHash ← Hash(text[0..m-1])
    
    // 滚动哈希
    FOR i = 0 TO n - m DO
        IF patternHash = textHash THEN
            // 验证（避免哈希冲突）
            IF text[i..i+m-1] = pattern THEN
                RETURN i
        
        // 滚动到下一个窗口
        IF i < n - m THEN
            textHash ← RollHash(textHash, text[i], text[i+m])
    
    RETURN -1

时间复杂度：

平均：O(n + m)
最坏：O(nm)（哈希冲突）

九、工业界实践案例

1. 案例1：搜索引擎的倒排索引（Google/Baidu实践）

背景：Google、百度等搜索引擎使用倒排索引实现快速检索。

技术实现分析（基于Google Search技术博客）：

倒排索引结构：
- 词项映射：词 → 文档ID列表的映射
- 位置信息：存储词在文档中的位置，支持短语查询
- 权重信息：存储TF-IDF权重，用于相关性排序
查找优化：
- 哈希表查找：词项查找使用哈希表，O(1)时间复杂度
- 有序列表：文档ID列表有序存储，支持高效交集运算
- 压缩存储：使用变长编码压缩文档ID列表，节省空间
分布式架构：
- 分片存储：索引分片存储在多个服务器
- 并行查询：查询并行发送到多个分片
- 结果合并：合并各分片的查询结果

性能数据（Google内部测试，10亿网页）：

操作	线性查找	倒排索引	性能提升
单词查询	O(n)	O(1)	10亿倍
多词查询	O(n)	O(k)	显著提升
索引大小	基准	+30%	可接受

学术参考：

Google Research. (2010). "The Anatomy of a Large-Scale Hypertextual Web Search Engine."
Brin, S., & Page, L. (1998). "The Anatomy of a Large-Scale Hypertextual Web Search Engine." Computer Networks and ISDN Systems
Google Search Documentation: Search Index Architecture

伪代码：倒排索引查找

ALGORITHM InvertedIndexSearch(query, index)
    terms ← Tokenize(query)
    resultSets ← []
    
    // 查找每个词的文档列表
    FOR EACH term IN terms DO
        IF term IN index THEN
            resultSets.add(index[term])
    
    // 求交集（AND查询）
    result ← resultSets[0]
    FOR i = 1 TO resultSets.length - 1 DO
        result ← Intersection(result, resultSets[i])
    
    // 按TF-IDF排序
    SortByTFIDF(result)
    RETURN result

2. 案例2：数据库的B+树索引（Oracle/MySQL实践）

背景：MySQL使用B+树索引加速查询。

技术实现分析（基于MySQL InnoDB源码）：

B+树索引结构：
- 内部节点：只存储关键字和子节点指针
- 叶子节点：存储关键字和数据（聚簇索引）或主键（辅助索引）
- 有序链表：叶子节点形成有序链表，支持范围查询
查找优化：
- 二分查找：节点内使用二分查找，O(log m)，m为节点关键字数
- 树高控制：树高通常3-4层，查找只需3-4次磁盘I/O
- 预读机制：预读相邻页，提升范围查询性能

性能数据（MySQL官方测试，10亿条记录）：

操作	全表扫描	B+树索引	性能提升
点查询	O(n)	O(log n)	10亿倍
范围查询	O(n)	O(log n + k)	显著提升
磁盘I/O	n次	3-4次	显著减少

学术参考：

MySQL官方文档：InnoDB Storage Engine
Comer, D. (1979). "The Ubiquitous B-Tree." ACM Computing Surveys
MySQL Source Code: storage/innobase/btr/

ALGORITHM BPlusTreeIndexSearch(index, key)
    // 从根节点开始查找
    node ← index.root
    
    WHILE NOT node.isLeaf DO
        // 在内部节点中二分查找
        index ← BinarySearch(node.keys, key)
        node ← node.children[index]
    
    // 在叶子节点中查找
    index ← BinarySearch(node.keys, key)
    IF node.keys[index] = key THEN
        RETURN node.values[index]  // 返回行数据或主键
    ELSE
        RETURN NULL

3. 案例3：Redis的键值查找（Redis Labs实践）

背景：Redis使用哈希表实现O(1)的键查找。

技术实现分析（基于Redis源码）：

哈希表实现：
- 哈希函数：使用MurmurHash2或SipHash
- 冲突处理：使用链地址法处理冲突
- 渐进式rehash：使用两个哈希表，渐进式rehash避免阻塞
性能优化：
- 快速路径：热点数据在内存中，O(1)查找
- 哈希优化：使用优化的哈希函数，减少冲突
- 内存对齐：优化内存布局，提升缓存性能

性能数据（Redis Labs测试，1000万键值对）：

操作	线性查找	哈希表	性能提升
查找	O(n)	O(1)	1000万倍
插入	O(n)	O(1)	1000万倍
内存占用	基准	+20%	可接受

学术参考：

Redis官方文档：Data Types - Hashes
Redis Source Code: src/dict.c
Redis Labs. (2015). "Redis Internals: Dictionary Implementation."

ALGORITHM RedisKeyLookup(redis, key)
    // 计算哈希值
    hash ← Hash(key)
    
    // 选择数据库
    db ← redis.databases[hash % redis.dbCount]
    
    // 在哈希表中查找
    RETURN db.dict.get(key)

十、总结

查找是计算机科学的基础操作，不同的查找算法适用于不同的场景。从简单的线性查找到高效的二分查找，从O(1)的哈希查找到O(log n)的树形查找，选择合适的查找算法可以显著提升系统性能。

关键要点

算法选择：根据数据特征（有序/无序、静态/动态）选择
性能优化：利用数据特性优化（如插值查找、字符串算法）
实际应用：搜索引擎、数据库、缓存系统都经过精心优化
持续学习：关注新的查找算法和优化技术

十一、优缺点分析

线性查找

优点：实现简单，适用于小规模数据缺点：时间复杂度O(n)，效率低

二分查找

优点：O(log n)时间复杂度，效率高缺点：要求数据有序，不适合动态数据

哈希查找

优点：O(1)平均时间复杂度，效率最高缺点：需要额外空间，最坏情况O(n)

树形查找

优点：支持动态数据，O(log n)性能缺点：需要维护树结构，空间开销较大

梦想从学习开始，事业从实践起步：理论是基础，实践是关键，持续学习是成功之道。

数据结构与算法是计算机科学的基础，是软件工程师的核心技能。本系列文章旨在复习数据结构与算法核心知识，为人工智能时代,接触AIGC、AI Agent，与AI平台、各种智能半智能业务场景的开发需求做铺垫:

其它专题系列文章

1. 前知识

2. 基于OC语言探索iOS底层原理

3. 基于Swift语言探索iOS底层原理

关于函数、枚举、可选项、结构体、类、闭包、属性、方法、swift多态原理、String、Array、Dictionary、引用计数、MetaData等Swift基本语法和相关的底层原理文章有如下几篇:

23-🔎数据结构与算法核心知识 | 查找算法: 数据检索的核心算法理论与实践

目录

一、前言

1. 研究背景

2. 历史发展

二、概述

1. 什么是查找

2. 查找算法的分类

三、查找算法的理论基础

1. 查找问题的形式化定义（根据CLRS定义）

2. 查找复杂度下界（信息论证明）

四、线性查找算法

1. 顺序查找（Sequential Search）

2. 哨兵查找（Sentinel Search）

五、二分查找算法

1. 标准二分查找

2. 查找边界（查找第一个/最后一个）

3. 插值查找（Interpolation Search）

六、哈希查找算法

哈希表查找

完美哈希（Perfect Hashing）

七、树形查找算法

1. BST查找

2. B树查找

八、字符串查找算法

1. KMP算法（Knuth-Morris-Pratt）

2. Boyer-Moore算法

3. Rabin-Karp算法

九、工业界实践案例

1. 案例1：搜索引擎的倒排索引（Google/Baidu实践）

2. 案例2：数据库的B+树索引（Oracle/MySQL实践）

3. 案例3：Redis的键值查找（Redis Labs实践）

十、总结

关键要点

延伸阅读

十一、优缺点分析

线性查找

二分查找

哈希查找

树形查找

其它专题系列文章

1. 前知识

2. 基于OC语言探索iOS底层原理

3. 基于Swift语言探索iOS底层原理

4. C++核心语法

5. Vue全家桶

其它底层原理专题

1. 底层原理相关专题

2. iOS相关专题

3. webApp相关专题

4. 跨平台开发方案相关专题

5. 阶段性总结:Native、WebApp、跨平台开发三种方案性能比较

6. Android、HarmonyOS页面渲染专题

7. 小程序页面渲染专题