你可以使用下面的基本语法将一个pandas DataFrame从宽格式转换为长格式。
df = pd.melt(df, id_vars='col1', value_vars=['col2', 'col3', ...])
在这种情况下,col1是我们用作标识符的列,col2、col3等是我们取消透视的列。
下面的例子展示了如何在实践中使用这种语法。
例子:重塑潘达斯数据框架,从宽到长
假设我们有如下的pandas DataFrame:
import pandas as pd
#create DataFrame
df = pd.DataFrame({'team': ['A', 'B', 'C', 'D'],
'points': [88, 91, 99, 94],
'assists': [12, 17, 24, 28],
'rebounds': [22, 28, 30, 31]})
#view DataFrame
df
team points assists rebounds
0 A 88 12 22
1 B 91 17 28
2 C 99 24 30
3 D 94 28 31
我们可以使用下面的语法将这个DataFrame从宽格式重塑为长格式:
#reshape DataFrame from wide format to long format
df = pd.melt(df, id_vars='team', value_vars=['points', 'assists', 'rebounds'])
#view updated DataFrame
df
team variable value
0 A points 88
1 B points 91
2 C points 99
3 D points 94
4 A assists 12
5 B assists 17
6 C assists 24
7 D assists 28
8 A rebounds 22
9 B rebounds 28
10 C rebounds 30
11 D rebounds 31
现在的DataFrame是长格式的。
我们使用'球队'列作为标识符列,并且我们取消了'得分'、'助攻'和'篮板'列的透视。
注意,我们还可以使用var_name和value_name参数来指定新的长数据框架中的列的名称:
#reshape DataFrame from wide format to long format
df = pd.melt(df, id_vars='team', value_vars=['points', 'assists', 'rebounds'],
var_name='metric', value_name='amount')
#view updated DataFrame
df
team metric amount
0 A points 88
1 B points 91
2 C points 99
3 D points 94
4 A assists 12
5 B assists 17
6 C assists 24
7 D assists 28
8 A rebounds 22
9 B rebounds 28
10 C rebounds 30
11 D rebounds 31
注:你可以在这里找到pandasmelt()函数的完整文档。
其他资源
下面的教程解释了如何在Python中进行其他常见的操作:
如何向Pandas DataFrame添加行
如何向Pandas DataFrame添加列
如何计算Pandas DataFrame中特定值的出现次数