本文已参与「新人创作礼」活动,一起开启掘金创作之路。
python 序列去重并保持原始顺序:
简单的方法实现
def dedupe(items):
seen = []
for item in items:
if item not in seen:
seen.append(item)
return seen
sequence = [1, 2, 3, 5, 2, 3, 4]
print((dedupe(sequence))) # [1, 2, 3, 5, 4]
用 set 和 yield 实现
代码:
def dedupe(items):
seen = set() # 集合set是一个无序不重复元素集
for item in items:
if item not in seen:
yield item
seen.add(item)
sequence = [1, 2, 3, 5, 2, 3, 4]
print(list(dedupe(sequence))) # [1, 2, 3, 5, 4]
# list(dedupe(sequence))是将生成器中的结果呈现出来
这里对set和yield进行研究。如果不用yield可不可以呢,毕竟用生成器会很难理解,那么首先去掉yied,返回seen:
def dedupe(items):
seen = set()
for item in items:
if item not in seen:
seen.add(item)
return seen
sequence = [1, 2, 3, 5, 2, 3, 4]
print(list(dedupe(sequence))) # [1, 2, 3, 4, 5]
可以发现输出的元素并没有保持原有的顺序,这是因为set的特性导致的。set是一个一个无序不重复元素集,使用 add()方法向set中添加元素时并不会将元素添加到末尾,而是按照顺序插入到了中间位置。
我们可以逐步打印 seen 的内容看一下:
def dedupe(items):
seen = set()
for item in items:
if item not in seen:
seen.add(item)
print("seen: ",seen)
return seen
sequence = [1, 2, 3, 5, 2, 3, 4]
print("sequence元素: ",dedupe(sequence))
# output:
seen: {1}
seen: {1, 2}
seen: {1, 2, 3}
seen: {1, 2, 3, 5}
seen: {1, 2, 3, 4, 5}
sequence元素: {1, 2, 3, 4, 5}
可以发现向集合 {1, 2, 3, 5} 中 add(4),得到的是 {1, 2, 3, 4, 5},而不是 {1, 2, 3, 5, 4},这就是 set 无序性的体现。
那么为什么用 yield 就可以实现保持顺序的功能呢?因为 yield 生成器会逐个返回 1, 2, 3, 5, 4
那么为什么 print(list(dedupe(sequence)) )会输出 [1, 2, 3, 5, 4] 呢?因为 list(dedupe(sequence)) 是将生成器中的结果呈现出来,直接打印生成器 print(dedupe(sequence)) 只会输出地址,不会输出内容。这个问题可以参考:Python列表去重并保持顺序为什么使用yield?