Python 快速统计数据的去重数和去重数据

63 阅读3分钟

In [2]: data = [random.randint(0, 1000) for _ in xrange(1000000)]

In [3]: %timeit len(set(data))

10 loops, best of 3: 39.7 ms per loop

In [4]: %timeit len({}.fromkeys(data).keys())

10 loops, best of 3: 43.5 ms per loop

由此可见,采用字典和采用集合的性能是差不多的,甚至可能还要慢些。

在 Python 中其实有很多高效的库,例如用 numpy、pandas 来处理数据,其性能接近于 C 语言。那么,我们就用 numpy 和 pandas 来解决这个问题,这里我还比较了获取去重数据的性能,代码如下:

'''

遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939

寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!

'''

import collections

import random as py_random

import timeit

import numpy.random as np_random

import pandas as pd

DATA_SIZE = 10000000

def py_cal_len():

data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)]

len(set(data))

def pd_cal_len():

data = np_random.randint(1000, size=DATA_SIZE)

data = pd.Series(data)

data_unique = data.value_counts()

data_unique.size

def py_count():

data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)]

collections.Counter(data)

def pd_count():

data = np_random.randint(1000, size=DATA_SIZE)

data = pd.Series(data)

data.value_counts()

Script starts from here

if name == "main":

t1 = timeit.Timer("py_cal_len()", setup="from main import py_cal_len")

t2 = timeit.Timer("pd_cal_len()", setup="from main import pd_cal_len")

t3 = timeit.Timer("py_count()", setup="from main import py_count")

t4 = timeit.Timer("pd_count()", setup="from main import pd_count")

print t1.timeit(number=1)

print t2.timeit(number=1)

print t3.timeit(number=1)

print t4.timeit(number=1)

如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功! 最后祝你好运!!!

了解详情:docs.qq.com/doc/DSnl3ZG…