携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第28天,点击查看活动详情
也是暑假自学python的第38天
今天开始学习深度学习的知识:
首先进行环境的安装与配置:在cmd中输入pip install sklearn
由于在国内安装python包网速很慢,所以我是安装失败了
从网上找到了解决问题的方法,使用国内镜像安装,安装任何东西都很快,大概十几秒钟安装完毕:
安装的语句如下: pip install sklearn -i pypi.tuna.tsinghua.edu.cn/simple
安装任何pip包的时候都可以执行这样的语句:
pip install [需要安装的包] -i pypi.tuna.tsinghua.edu.cn/simple
安装结束之后检查安装包:
pip list|findstr scikit
特征工程的学习
在特征工程的学习中,我首先学习到一个最基础的概念,什么是特征:
特征
特征是建立在原始数据之上,表示一个单独的可度量的属性,用结构化数据集的一列来表示。每个观测值(样本)使用一行表示,每一个特征值使用一列来表示,举例如下:
用户1以及这一行所对应的就是一个观测值(样本)
每一列就是一个特征
升高体重都可以用数据来表示,对于性别来说,性别的取值只有两种,而且是字符型的。
这里就由特征引出了特征的种类:
特征的种类
特征的种类一般分为三种:(1)离散特征(2)连续特征(3)时空特征(4)文本特征(5)富媒体特征
离散数据又分为类别特征和有序特征,类别特征就是性别这种无序的,有序特征就是有顺序的。低,中,高等级等。
连续特征:就是数字特征
时空特征就是大多基于地理位置等的特征
文本特征就是从文本中提取数据,文本特征一般可以通过转化为向量来表示
富媒体特征一般用数值向量来表示