记录从准研一假期自学PYTHON的全过程day38(特征工程1,pip安装)

171 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第28天,点击查看活动详情

也是暑假自学python的第38天

今天开始学习深度学习的知识:

首先进行环境的安装与配置:在cmd中输入pip install sklearn

97f8f3c8fb4732f5a0618467d41e23f.jpg

由于在国内安装python包网速很慢,所以我是安装失败了

从网上找到了解决问题的方法,使用国内镜像安装,安装任何东西都很快,大概十几秒钟安装完毕:

安装的语句如下: pip install sklearn -i pypi.tuna.tsinghua.edu.cn/simple

安装任何pip包的时候都可以执行这样的语句:

pip install [需要安装的包] -i pypi.tuna.tsinghua.edu.cn/simple

64b65b1588ac407d63a05ada8412020.jpg

安装结束之后检查安装包:

pip list|findstr scikit

image.png

特征工程的学习

在特征工程的学习中,我首先学习到一个最基础的概念,什么是特征:

特征

特征是建立在原始数据之上,表示一个单独的可度量的属性,用结构化数据集的一列来表示。每个观测值(样本)使用一行表示,每一个特征值使用一列来表示,举例如下:

image.png

用户1以及这一行所对应的就是一个观测值(样本)

每一列就是一个特征

升高体重都可以用数据来表示,对于性别来说,性别的取值只有两种,而且是字符型的。

这里就由特征引出了特征的种类:

特征的种类

特征的种类一般分为三种:(1)离散特征(2)连续特征(3)时空特征(4)文本特征(5)富媒体特征

离散数据又分为类别特征和有序特征,类别特征就是性别这种无序的,有序特征就是有顺序的。低,中,高等级等。

连续特征:就是数字特征

时空特征就是大多基于地理位置等的特征

文本特征就是从文本中提取数据,文本特征一般可以通过转化为向量来表示

富媒体特征一般用数值向量来表示