python之元组和列表

184 阅读6分钟

列表和元组基础

什么是列表和元组? 实际上,列表和元组,都是一个可以放置任意数据类型的有序集合。

列表是动态的,长度大小不固定,可以随意地增加,删减或者改变元素

而元组是静态的,长度大小固定,无法增加删减或者改变。

下面创建了一个列表和元组。对于列表,可以很轻松地让其最后一个元素,由4变为40;

l = [1, 2, 3, 4]
l[3] = 40 # python中索引同样从0开始,l[3]表示访问列表的第四个元素
l[1, 2, 3, 40]

但是,如果对元组采取相同的操作,python就会报错,原因就是元组是不可变的。

tup = (1, 2, 3, 4)
tup[3] = 40
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'tuple' object does not support item assignment

可是,如果想对已有的元组做任何改变,那就只能重新开辟一块内存,创建新的元组了。

比如下面的例子,想增加一个元素5给元组,实际上就是创建了一个新的元组,然后把原来两个元组的值依次填充进去。

tup = (1, 2, 3, 4)
new_tup = tup + (5, ) # 创建新的元组new_tup,并依次填充原元组的值
new _tup(1, 2, 3, 4, 5)

而对于列表来说,由于其是动态的,我们只需简单地在列表末尾,加入对应元素就可以了,如下操作后,会修改原来列表中的元素,而不会创建新的列表。

l = [1, 2, 3, 4]
l.append(5) # 添加元素5到原列表的末尾
l
[1, 2, 3, 4, 5]

列表和元组的基本操作和注意事项。

首先,和其他语言不同,python中的列表和元组都支持负数索引,-1表示最后一个元素,-2表示倒数第二个元素,以此类推。

l = [1, 2, 3, 4]
l[-1]
4

tup = (1, 2, 3, 4)
tup[-1]
4

除了基本的初始化,索引外,列表和元组都支持切片操作;

l = [1, 2, 3, 4]
l[1:3] # 返回列表中索引从1到2的子列表
[2, 3]

tup = (1, 2, 3, 4)
tup[1:3] # 返回元组中索引从1到2的子元组
(2, 3) 

另外,列表和元组都可以随意嵌套;

l = [[1, 2, 3],[4, 5]] #列表的每一个元素也是一个列表

tup = ((1, 2, 3),(4, 5, 6)) #元组的每一个元素也是一个元组

当然,两者也可以通过list()和tuple()函数相互转换;

list((1, 2, 3))
[1, 2, 3]

tuple([1, 2, 3])
(1, 2, 3)

我们再看一下列表和元组常用的内置函数:

count(item)表示统计列表/元组中item出现的次数。
l = [3, 2, 3, 7, 8, 1]
l.count(3)
2
tup = (3, 2, 3, 7, 8, 1)
tup.count(3)
2

index(item)表示返回列表/元组中item第一次出现的索引。
l.index(7)
3
tup.index(7)
3

list.reverse()和list.sort()分别表示原地倒转列表和排序(注意,元组没有内置这个两个函数)
l.reverse()
l
[1, 8, 7, 3, 2, 3]

l.sort()
l
[1, 2, 3, 3, 7, 8]

reversed()和sorted()同样表示对列表/元组进行倒转和排序,但是会返回一个倒转后或者排好序的新的列表/元组
list(reversed(tup))
[1, 8, 7, 3, 2, 3]
sorted(tup)
[1, 2, 3, 3, 7, 8]

列表和存储方式的差异

列表和元组最重要的区别就是,列表是动态的,可变的,而元组是静态的,不可变的。这样的差异,势必会影响两者存储方式。(例子中存储的是int型,8字节)

l = [1, 2, 3]
l.__sizeof__()
64
tup = (1, 2, 3)
tup.__sizeof__()
48

对列表和元组,我们放置了相同的元素,但是元组的存储空间,却比列表要少16字节。事实上,由于列表是动态的,所以它需要存储指针,来指向对应得元素。另外,由于列表可变,所以需要额外存储已经分配的长度大小(8字节),这样才可以实时追踪列表空间的使用情况,当空间不足时,及时分配额外空间。

l = []
l.__sizeof__() #空列表的存储空间为40字节
40

l.append(1)
l.__sizeof__()
72  #加入了元素1之后,列表为其分配了可以存储4个元素的空间(72-40)/8 = 4

l.append(2)
l.__sizeof__()
72  #由于之前分配了空间,所以加入元素2,列表空间不变

l.append(3)
l.__sizeof__()
72  

l.append(4)
l.__sizeof__()
72 

l.append(5)
l.__sizeof__()
104  #加入元素5之后,列表的空间不足,所以又额外分配了可以存储4个元素的空间。

上面的例子大概描述了列表空间分配的过程。我们可以看到,为了减少每次增加/删减操作时空间分配的开销,python每次分配空间时都会额外多分配一些,这样的机制(over-allocating)保证了其操作的高效性:增加/删除的时间复杂度均为O(1).

但是对于元组,情况就不同了。元组长度大小固定,元素不可变,所以存储空间固定。

在存储元素少时,两者的差异是可以忽略不计,但是如果列表和元组存储的个数是一亿,十亿甚至更大数量级时,这种差异就不能忽略了。

列表和元组的性能

通过上面的列表和元组存储方式的差异,可以得出:元组要比列表更加轻量级一些,所以总体上来说,元组的性能速度要略优于列表。

另外,python会在后台,对静态数据做一些资源缓存(resource caching). 通常来说,因为垃圾回收机制的存在,如果一些变量不被使用了,python就会回收它们所占用的内存,返还给操作系统,以便其他变量或其他应用使用。

但是对于一些静态变量,比如元组,如果它不被使用并且占用空间不大时,python会暂时缓存这部分内存。这样,下次我们再创建同样大小的元组时,python就可以不用再向操作系统发出请求,去寻找内存,而是可以直接分配之前缓存的内存空间,这样就能大大加快程序的运行速度。

下面是计算初始化一个相同元素的列表和元组分别所需的时间的一个例子。可以看到元组的初始化速度,要比列表快5倍。

python3 -m timeit 'x=(1,2,3,4,5,6)'
20000000 loops, best of 5: 9.97 nsec per loop
python3 -m timeit 'x=[1,2,3,4,5,6]'
5000000 loops, best of 5: 50.1 nsec per loop

但如果是索引操作的话,两者的速度差别非常小,几乎可以忽略不计。

python3 -m timeit -s 'x=[1,2,3,4,5,6]' 'y=x[3]'
10000000 loops, best of 5: 22.2 nsec per loop
python3 -m timeit -s 'x=(1,2,3,4,5,6)' 'y=x[3]'
10000000 loops, best of 5: 21.9 nsec per loop

当然,如果想要增加,删减或者改变元素,那么列表显然更优。如果是元组的话,还必须得通过新建一个元组来完成。