数据科学家们花了大量的时间来清理数据集,以便它们更容易工作。事实上,80/20法则说,获取和清理数据的最初步骤占任何特定项目所花费时间的80%。
因此,如果你刚刚踏入这个领域或打算踏入这个领域,重要的是能够处理混乱的数据,无论这意味着缺失值、不一致的格式、畸形的记录或无意义的异常值。
在这个视频课程中,你将利用Python的pandas和NumPy库来清理数据。
一路走来,你会学到以下内容。
- 丢弃数据中不必要的列
DataFrame - 改变列的索引
DataFrame - 使用
.str()方法来清理列 - 将列重命名为更容易识别的标签集
- 跳过CSV文件中不必要的行
为了从本教程中获得最大的收获,你应该对pandas和NumPy库有一个基本的了解,包括pandas的主要工作对象Series 和DataFrame 对象,可以应用于这些对象的常用方法,以及NumPy的 NaN值。
[用🐍Python技巧提高你的Python水平 💌 - 每隔几天向你的收件箱发送一个短小精悍的Python技巧。>> 点击这里了解更多信息并查看示例] 。