df.concat() 是 Pandas 中用于连接(concatenate)多个 DataFrame 的函数。它允许你在指定的轴上连接多个 DataFrame,按照指定的方式进行连接。下面是 pd.concat() 方法的一般用法和一些重要参数的说明:
pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, verify_integrity=False, sort=False, copy=True)
objs:一个列表或字典,包含要连接的 DataFrame 对象。axis:指定连接的轴。默认为 0,表示沿着行的方向进行连接;如果设置为 1,表示沿着列的方向进行连接。join:指定连接的方式。默认为 'outer',表示使用并集;可以设置为 'inner',表示使用交集。ignore_index:如果设置为 True,则忽略原始索引,生成新的连续索引。keys:使用层次化索引,将连接的 DataFrame 对象标记为不同的层级。verify_integrity:如果设置为 True,则在连接操作之前检查 DataFrame 对象的索引是否唯一,并引发 ValueError 异常。sort:如果设置为 True,则对连接后的 DataFrame 进行排序。在大多数情况下,不需要设置为 True。copy:如果设置为 False,则不复制数据,如果可能的话,返回视图。默认为 True。
举例说明:
- 沿着行方向连接多个 DataFrame:
result = pd.concat([df1, df2, df3])
- 沿着列方向连接多个 DataFrame:
result = pd.concat([df1, df2, df3], axis=1)
- 使用交集进行连接:
result = pd.concat([df1, df2], join='inner')
- 忽略原始索引,生成新的连续索引:
result = pd.concat([df1, df2], ignore_index=True)
- 使用层次化索引:
result = pd.concat([df1, df2], keys=['x', 'y'])
pd.concat() 方法在数据处理中经常用到,特别是在合并多个数据集或者进行数据整合时非常有用。