90% Python 开发者不知道的 set 用法！提升效率必备！在日常 Python 开发中，我们经常需要处理数据去重

在日常 Python 开发中，我们经常需要处理数据去重、集合运算等任务。很多开发者会不假思索地使用列表(list)或字典(dict)来实现这些功能，却忽略了 Python 内置的 set 类型这个强大的工具。set 不仅能够以 O(1) 时间复杂度完成成员检测，还提供了丰富的集合运算方法。

本文将带你从 set 的基础用法出发，逐步深入到高级应用场景，最后揭秘 set 的底层实现原理，让你彻底掌握这个被低估的数据结构！

1. set 基础：创建与基本操作

set 是 Python 中的无序可变集合，它最大的特点是元素唯一且不可重复。与列表和元组不同，set 不支持索引操作，但提供了高效的成员检测功能。

创建 set 有两种基本方式：使用花括号 {} 或 set() 构造函数。需要注意的是，空集合必须使用 set() 创建，因为 {} 表示的是空字典。

# 创建包含元素的集合
fruits = {'apple', 'banana', 'orange'}
print(fruits)  # 输出可能是 {'apple', 'banana', 'orange'}

# 创建空集合
empty_set = set()
print(type(empty_set))  # <class 'set'>

# 从列表创建集合去重
numbers = [1, 2, 2, 3, 4, 4, 5]
unique_numbers = set(numbers)
print(unique_numbers)  # {1, 2, 3, 4, 5}

set 支持常见集合操作如添加、删除、清空等。这些操作的时间复杂度都是 O(1)，比列表的 O(n) 高效得多。

colors = {'red', 'green', 'blue'}

# 添加元素
colors.add('yellow')
print(colors)  # {'green', 'blue', 'yellow', 'red'}

# 删除元素
colors.remove('green')  # 如果元素不存在会引发 KeyError
colors.discard('purple')  # 安全删除，元素不存在也不会报错

# 随机弹出元素
popped = colors.pop()
print(f"Popped: {popped}, Remaining: {colors}") # Popped: blue, Remaining: {'yellow', 'red'}

# 清空集合
colors.clear()
print(colors)  # set()

2. set 的核心优势：集合运算

set 真正的强大之处在于它提供的丰富集合运算。这些运算不仅语义清晰，而且性能优异，能够替代许多需要循环实现的复杂逻辑。

集合运算主要分为两类：产生新集合的操作和更新原集合的操作。前者包括并集、交集、差集和对称差集，后者则是它们的就地版本。

A = {1, 2, 3, 4}
B = {3, 4, 5, 6}

# 并集 (存在于A或B中的元素)
print(A | B)      # {1, 2, 3, 4, 5, 6}
print(A.union(B)) # 同上

# 交集 (同时存在于A和B中的元素)
print(A & B)             # {3, 4}
print(A.intersection(B)) # 同上

# 差集 (存在于A但不在B中的元素)
print(A - B)         # {1, 2}
print(A.difference(B)) # 同上

# 对称差集 (存在于A或B但不同时存在的元素)
print(A ^ B)                 # {1, 2, 5, 6}
print(A.symmetric_difference(B)) # 同上

就地更新操作可以避免创建新集合，对于处理大数据集特别有用：

A = {1, 2, 3}
B = {3, 4, 5}

# 就地并集
A.update(B)  # 等同于 A |= B
print(A)  # {1, 2, 3, 4, 5}

# 就地交集
A.intersection_update(B)  # 等同于 A &= B
print(A)  # {3, 4, 5}

# 就地差集
A.difference_update({4})  # 等同于 A -= {4}
print(A)  # {3, 5}

3. set 的高级应用场景

掌握了 set 的基本操作后，我们来看几个实际开发中的高级应用场景。这些技巧能够显著提升代码的简洁性和性能。

3.1 快速去重与成员检测

set 最直观的应用就是数据去重。相比列表推导式或字典键去重，set 更加简洁高效。

# 列表去重
data = ['a', 'b', 'a', 'c', 'b', 'd']
unique_data = list(set(data))
print(unique_data)  # 顺序可能变化: ['d', 'c', 'a', 'b']

# 成员检测
data = ['a', 'b', 'a', 'c', 'b', 'd']
set_data = set(data)
print('c' in set_data)  # True 比列表快几个数量级

3.2 集合比较与包含关系

set 提供了丰富的方法来比较集合之间的关系，这些方法在数据分析和业务逻辑中非常实用。

admins = {'Alice', 'Bob', 'Charlie'}
current_users = {'Alice', 'Bob', 'David'}

# 检查是否有管理员在线
print(admins & current_users)  # {'Bob', 'Alice'}

# 检查是否所有管理员都在线
print(admins <= current_users)  # False
print(admins.issubset(current_users))  # 同上

# 检查两个集合是否不相交
print(admins.isdisjoint({'Eve', 'Frank'}))  # True

3.3 使用 frozenset 作为字典键

普通的 set 是可变对象，不能作为字典的键。Python 提供了不可变的 frozenset 类型来解决这个问题。

# 普通set不能作为字典键
try:
    d = {{1, 2}: 'value'}
except TypeError as e:
    print(e)  # unhashable type: 'set'

# 使用frozenset
graph = {
    frozenset({'A', 'B'}): 5,
    frozenset({'B', 'C'}): 3,
    frozenset({'A', 'C'}): 7
}
print(graph[frozenset({'B', 'A'})])  # 5 (顺序无关)

4. set 的性能优化与底层原理

理解 set 的底层实现原理，有助于我们在实际开发中做出更优的选择。Python 的 set 基于哈希表实现，这与字典的实现方式类似。

4.1 时间复杂度分析

set 操作的时间复杂度是选择它的重要原因：

成员检测 (x in s): O(1)
添加元素 (s.add(x)): O(1)
删除元素 (s.remove(x)): O(1)
并集/交集/差集: O(len(s) + len(t))

相比之下，列表的成员检测是 O(n)，在大数据量时性能差异巨大。

4.2 内存使用优化

set 的内存使用比列表更高效，特别是对于包含大量元素的情况。这是因为：

set 只需要存储元素本身，而列表还需要维护索引
set 会自动调整内部哈希表的大小以平衡空间和时间效率

import sys

lst = list(range(1000)) s = set(range(1000))

print(sys.getsizeof(lst)) # 约 9000 字节 print(sys.getsizeof(s)) # 约 33000 字节 (初始较大但增长缓慢)

5. 常见陷阱与最佳实践

即使是经验丰富的开发者，在使用 set 时也容易犯一些错误。了解这些陷阱可以帮助我们写出更健壮的代码。

5.1 可变对象不能作为 set 元素

set 要求所有元素必须是可哈希的(不可变的)，因此列表等可变对象不能作为 set 元素。

try:
    {{1, 2}, {3, 4}}
except TypeError as e:
    print(e)  # unhashable type: 'set'

# 使用元组代替
valid_set = {(1, 2), (3, 4)}
print(valid_set)

5.2 顺序不可依赖

set 是无序集合，不同 Python 版本甚至不同运行时的迭代顺序都可能不同。如果需要稳定顺序，可以使用 sorted()。

letters = {'a', 'b', 'c', 'd', 'e'}
print(list(letters))  # 顺序不确定

# 需要顺序时
print(sorted(letters))  # ['a', 'b', 'c', 'd', 'e']

5.3 理解集合运算的优先级

集合运算符有不同的优先级，混合使用时需要加括号明确意图。

A = {1, 2, 3}
B = {3, 4, 5}
C = {3, 5, 6}

# 不加括号可能导致意外结果
print(A & B | C)    # 等同于 (A & B) | C → {3, 5, 6}
print(A & (B | C))  # 等同于 A & {3, 4, 5, 6} → {3}

总结：set — Python 数据结构中的瑞士军刀

经过本文的全面探讨，我们可以看到 set 远不止是一个简单的去重工具。它提供了高效的成员检测、丰富的集合运算、优雅的语法和优秀的性能特征。在实际开发中，合理使用 set 可以：

替代许多需要循环实现的复杂逻辑，使代码更加简洁
将 O(n) 操作优化为 O(1)，显著提升程序性能
通过集合运算清晰地表达业务逻辑，提高代码可读性

记住，当你需要处理唯一性、成员关系或集合运算时，set 应该是你的首选数据结构。它就像 Python 数据结构中的瑞士军刀，小巧但功能强大。现在，是时候重新审视你的代码，看看哪些地方可以用 set 来优化了！

如果你喜欢本文，欢迎点赞，并且关注我们的微信公众号：Python技术极客，我们会持续更新分享 Python 开发编程、数据分析、数据挖掘、AI 人工智能、网络爬虫等技术文章！让大家在Python 技术领域持续精进提升，成为更好的自己！
添加作者微信（coder_0101），拉你进入行业技术交流群，进行技术交流~