df.concat用法

233 阅读1分钟

df.concat() 是 Pandas 中用于连接(concatenate)多个 DataFrame 的函数。它允许你在指定的轴上连接多个 DataFrame,按照指定的方式进行连接。下面是 pd.concat() 方法的一般用法和一些重要参数的说明:

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, verify_integrity=False, sort=False, copy=True)
  • objs:一个列表或字典,包含要连接的 DataFrame 对象。
  • axis:指定连接的轴。默认为 0,表示沿着行的方向进行连接;如果设置为 1,表示沿着列的方向进行连接。
  • join:指定连接的方式。默认为 'outer',表示使用并集;可以设置为 'inner',表示使用交集。
  • ignore_index:如果设置为 True,则忽略原始索引,生成新的连续索引。
  • keys:使用层次化索引,将连接的 DataFrame 对象标记为不同的层级。
  • verify_integrity:如果设置为 True,则在连接操作之前检查 DataFrame 对象的索引是否唯一,并引发 ValueError 异常。
  • sort:如果设置为 True,则对连接后的 DataFrame 进行排序。在大多数情况下,不需要设置为 True。
  • copy:如果设置为 False,则不复制数据,如果可能的话,返回视图。默认为 True。

举例说明:

  1. 沿着行方向连接多个 DataFrame:
result = pd.concat([df1, df2, df3])
  1. 沿着列方向连接多个 DataFrame:
result = pd.concat([df1, df2, df3], axis=1)
  1. 使用交集进行连接:
result = pd.concat([df1, df2], join='inner')
  1. 忽略原始索引,生成新的连续索引:
result = pd.concat([df1, df2], ignore_index=True)
  1. 使用层次化索引:
result = pd.concat([df1, df2], keys=['x', 'y'])

pd.concat() 方法在数据处理中经常用到,特别是在合并多个数据集或者进行数据整合时非常有用。