Python字典的原理

182 阅读5分钟

一、前言

在 Python 中,字典(dict) 是最常用且最高效的数据结构之一,广泛用于数据存储、配置管理、缓存机制等场景。它支持以接近常数时间复杂度 O(1) 进行插入、查找和删除操作。

那么,为什么字典这么快?它是如何实现键值对快速访问的?内部结构是什么样的?

本文将带你深入了解 Python 字典的底层实现原理,包括:

✅ 哈希表结构
✅ 哈希冲突处理
✅ 动态扩容机制
✅ 插入与查找流程
✅ 空间与效率的平衡策略

二、字典的本质:基于哈希表的映射结构

1. 什么是哈希表?

哈希表(Hash Table) 是一种通过哈希函数将任意长度的输入映射为固定长度输出的数据结构。它使得我们可以通过“键”快速定位对应的“值”。

Python 的字典正是基于开放寻址法实现的哈希表。

2. Python 字典的底层结构(CPython 实现)

Python 使用 C 编写的 CPython 解释器实现了自己的字典结构,其核心是三个关键结构体:

(1)PyDictObject

这是字典对象的核心结构体,包含:

  • 指向哈希表的指针;
  • 当前使用的槽位数量;
  • 哈希表大小掩码(mask);
  • 安全迭代器引用计数等。

(2)PyDictEntry

每一个键值对存储在一个 Entry 结构中,每个 Entry 包含:

typedef struct {
    Py_ssize_t me_hash;     // 键的哈希值,用于快速比较
    PyObject *me_key;       // 键对象
    PyObject *me_value;     // 值对象
} PyDictEntry;

三、哈希冲突与解决方式

1. 哈希冲突是什么?

当两个不同的键经过哈希函数计算后得到相同的索引值时,就会发生哈希冲突(Collision)

例如:

hash("apple") == hash("apply")

某些情况下可能返回 True

2. Python 如何解决哈希冲突?

Python 字典使用的是 开放寻址法(Open Addressing) 来解决冲突,具体采用了一种叫做 探查(Probing) 的方法。

当发生冲突时,Python 会按照一定规则寻找下一个空槽位,直到找到合适的位置为止。

⚠️ 注意:Python 3.6+ 引入了更高效的探查算法(称为 “紧凑哈希表” ),进一步减少了内存占用并提升了查找速度。

四、动态扩容机制

1. 初始容量与负载因子

Python 字典初始大小为 8 个槽位,随着元素的增加,会根据负载因子自动扩容。

负载因子公式:

load factor= used /size

当负载因子超过 2/3 时,字典就会扩容到原来的 4 倍(插入时)或 2 倍(删除后)。

2. 扩容过程详解

扩容时,Python 会:

  1. 创建一个新的更大的哈希表;
  2. 将旧表中的所有键值对重新计算哈希值并插入新表;
  3. 释放旧表资源。

这个过程虽然耗时,但由于是指数级扩容,所以平均每次插入的时间复杂度仍然是 O(1)

五、插入与查找流程详解

1. 插入流程(以 d[key] = value 为例)

  1. 计算 key 的哈希值;
  2. 取模运算确定在哈希表中的索引;
  3. 如果该位置为空,则插入;
  4. 如果不为空,则检查是否已有相同 key(哈希相等 + 对象相等);
  5. 若存在相同 key,则更新 value;
  6. 否则,继续探查下一个槽位,直到找到空位或命中相同 key。

2. 查找流程(以 d[key] 为例)

  1. 计算 key 的哈希值;
  2. 定位初始索引;
  3. 检查该位置是否有匹配的 key;
  4. 如果没有,按探查顺序继续查找;
  5. 找到则返回 value;
  6. 遇到空槽位则抛出 KeyError

六、键的不可变性要求

你可能会注意到

这是因为只有不可变类型才能作为字典的键,因为它们的哈希值在生命周期内不会变化。

类型是否可作为键
int
str
float
tuple(仅含不可变元素)
list
dict
set

七、Python 3.6+ 的改进:紧凑哈希表(Compact Dict)

在 Python 3.6 之前,字典的内存布局如下:

[entry1][entry2][entry3]...

而在 3.6+ 中,采用了紧凑哈希表(Compact Dictionary)

  • 使用一个单独的数组保存索引;
  • 另一个数组保存键值对;
  • 极大地节省了内存空间;
  • 提高了遍历效率;
  • 并保持插入顺序(官方特性在 3.7 成为语言规范);

这种设计使得字典既高效又紧凑,成为现代 Python 的一大亮点。

八、字典的性能分析与优化建议

操作时间复杂度说明
插入O(1)(均摊)插入可能导致扩容
查找O(1)最坏情况 O(n),但极少发生
删除O(1)需要维护标记为“已删除”状态
遍历O(n)依赖实际元素数量

性能优化建议:

  • 尽量避免频繁插入和删除大量元素;
  • 若你知道最终字典大小,可预分配空间(如用列表生成后再转为字典);
  • 不要使用大对象作为键(影响哈希效率);
  • 使用内置方法(如 .get().setdefault())代替条件判断提升效率;

九、总结对比表

特性列表字典
存储方式单一元素键值对
查找效率O(n)O(1)
是否有序✅ 是✅ 从 3.7 开始插入有序
是否可变✅ 是✅ 是
内部结构数组哈希表
插入代价可能扩容可能扩容
应用场景有序集合映射关系

十、结语

感谢您的阅读!如果你有任何疑问或想要分享的经验,请在评论区留言交流!