【数据操作与可视化】Pandas数据处理-从不同数据源获取数据【数据操作与可视化】Pandas数据处理-从不同数据源获取

【数据操作与可视化】Pandas数据处理-从不同数据源获取数据

一、读取excel文件

# 最基本的读取，只提供文件路径即可
df = pd.read_excel(r'D:\Study\training\online_school\live\live_class\python_data\直播授课\课件\7. Pandas\data\数据读取.xlsx')
df.head()
# 改变当前工作路径写更短的路径
import os
print(os.getcwd())  # 查看当前工作路径。默认当前工作路径是指当前文件所在路径。
os.chdir(r'D:\Study\training\online_school\live\live_class\python_data\直播授课\课件\7. Pandas\data')
print(os.getcwd())
# 读取指定的sheet
df2 = pd.read_excel(r'数据读取.xlsx', sheet_name='Sheet2')
df2
# 只读取指定的行数
df3 = pd.read_excel(r'数据读取.xlsx',
                   sheet_name='Sheet2',
                   header=None,
                   names=['列1', '列2', '列3', '列4', '列5'],
                   index_col=0,
                   nrows=3)
# 省略指定的行（忽略表头）
df4 = pd.read_excel(r'数据读取.xlsx',
                   sheet_name='Sheet3',
                   skiprows=[0],  # 注意必须是列表形式提供，写要省略的行的index
                   header=None,
                   names=['列1', '列2', '列3', '列4'],
                   nrows=3)
# 只导入指定的列数据
df5 = pd.read_excel(r'数据读取.xlsx', sheet_name='Sheet1', usecols=['售价','类型'])  # 也可以用列的索引值来代替，usecols=[1,2,3]

二、读取csv文件

df1 = pd.read_csv(r'数据读取.csv')
df2 = pd.read_csv(r'数据读取.csv',index_col=0)
# 有中文的情况，要指定encoding参数，
df3 = pd.read_csv(r'数据读取_含中文.csv', encoding='gbk', index_col=0)
# 指定分隔符号
df4 = pd.read_csv(r'数据读取_井号分隔.csv', sep='#')  # 常见分隔符号：，#，/，-，_等