目标值是离散值
K-金邻
算法核心:距离公式(欧式距离等)。
超参数:K
数据的处理:标准化。
优点:理解简单易于实现。
缺点:
- K值取多少。
- 性能问题,不适合用在大数据集上。
朴素贝叶斯
条件独立,才能叫朴素贝叶斯。
概率基础:条件概率和联合概率。
数据的处理:文本特征抽取。
贝叶斯公式。
优点:主要在文本分类上应用,准确率较高,有概率作为理论基础。
缺点:
- 条件独立。
- 历史数据的准确性(影响大)。
决策树
信息论:信息熵,信息增益,信息熵的大小变化和不确定性相关,不确定性越大则信息熵越大。
分类依据:
- 信息增益:表示在得知特征X的信息后使得类别Y的信息的不确定性减少的程度。
- 信息增益比:改变的大小和原来的信息熵进行比较,看谁改变的最多。
- 基尼系数(scikitlearn默认)
优点:准确率高,适用于各种数据,可解释性强。
缺点:容易过拟合,树的建立太大。
随机森林
一种集成学习方法,由多个同样的分类器组成。
多个决策树组成
建立过程:
优点:准确率高,不会过拟合,对大数据集适用。
超参数:树的深度,多少颗树,通过网格搜索即可。
分类算法的评估
准确率
精确率和召回率
- 混淆矩阵
- 每一个类别都会有
模型调参数
- 交叉验证:为了让数据都能够进行验证和训练,训练数据(训练+验证),K折交叉验证。
- 网格搜索:每个参数都会查看效果,选出效果好的参数,参数组合(1,2)。