numpy常用函数

227 阅读2分钟

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第8天,点击查看活动详情

常用函数

为了简单起见,这里假设下述函数输入的数组都是一维的。

【a】where

where是一种条件函数,可以指定满足条件与不满足条件位置对应的填充值:

a = np.array([-1,1,-1,0])
np.where(a>0, a, 5) # 对应位置为True时填充a对应元素,否则填充5
array([5, 1, 5, 5])

【b】nonzero, argmax, argmin

这三个函数返回的都是索引,nonzero返回非零数的索引,argmax, argmin分别返回最大和最小数的索引:

a = np.array([-2,-5,0,1,3,-1])
np.nonzero(a)
(array([0, 1, 3, 4, 5], dtype=int64),)
a.argmax()
4
a.argmin()
1

【c】any, all

any指当序列至少 存在一个 True或非零元素时返回True,否则返回False

all指当序列元素 全为 True或非零元素时返回True,否则返回False

a = np.array([0,1])
a.any()
True
 a.all()
False

【d】cumprod, cumsum, diff

cumprod, cumsum分别表示累乘和累加函数,返回同长度的数组,diff表示和前一个元素做差,由于第一个元素为缺失值,因此在默认参数情况下,返回长度是原数组减1

a = np.array([1,2,3])
a.cumprod()
array([1, 2, 6], dtype=int32)
a.cumsum()
array([1, 3, 6], dtype=int32)
np.diff(a)
array([1, 1])

【e】 统计函数

常用的统计函数包括max, min, mean, median, std, var, sum, quantile,其中分位数计算是全局方法,因此不能通过array.quantile的方法调用:

target = np.arange(5)
target
array([0, 1, 2, 3, 4])
target.max()
4
np.quantile(target, 0.5) # 0.5分位数
2.0

但是对于含有缺失值的数组,它们返回的结果也是缺失值,如果需要略过缺失值,必须使用nan*类型的函数,上述的几个统计函数都有对应的nan*函数。

target = np.array([1, 2, np.nan])
target
array([ 1.,  2., nan])
target.max()
nan
np.nanmax(target)
2.0
np.nanquantile(target, 0.5)
1.5

对于协方差和相关系数分别可以利用cov, corrcoef如下计算:

target1 = np.array([1,3,5,9])
target2 = np.array([1,5,3,-9])
np.cov(target1, target2)
array([[ 11.66666667, -16.66666667],
       [-16.66666667,  38.66666667]])
np.corrcoef(target1, target2)
array([[ 1.        , -0.78470603],
       [-0.78470603,  1.        ]])

最后,需要说明二维Numpy数组中统计函数的axis参数,它能够进行某一个维度下的统计特征计算,当axis=0时结果为列的统计指标,当axis=1时结果为行的统计指标:

target = np.arange(1,10).reshape(3,-1)
target
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])
target.sum(0)
array([12, 15, 18])
target.sum(1)
array([ 6, 15, 24])