分类算法总结(一)

233 阅读2分钟

目标值是离散值

K-金邻

算法核心:距离公式(欧式距离等)。
超参数:K
数据的处理:标准化。
优点:理解简单易于实现。
缺点:

  • K值取多少。
  • 性能问题,不适合用在大数据集上。

朴素贝叶斯

条件独立,才能叫朴素贝叶斯。
概率基础:条件概率和联合概率。
数据的处理:文本特征抽取。
贝叶斯公式。
优点:主要在文本分类上应用,准确率较高,有概率作为理论基础。
缺点:

  • 条件独立。
  • 历史数据的准确性(影响大)。

决策树

信息论:信息熵,信息增益,信息熵的大小变化和不确定性相关,不确定性越大则信息熵越大。
分类依据:

  • 信息增益:表示在得知特征X的信息后使得类别Y的信息的不确定性减少的程度。
  • 信息增益比:改变的大小和原来的信息熵进行比较,看谁改变的最多。
  • 基尼系数(scikitlearn默认)

优点:准确率高,适用于各种数据,可解释性强。
缺点:容易过拟合,树的建立太大。

随机森林

一种集成学习方法,由多个同样的分类器组成。
多个决策树组成
建立过程:
优点:准确率高,不会过拟合,对大数据集适用。
超参数:树的深度,多少颗树,通过网格搜索即可。

分类算法的评估

准确率
精确率和召回率

  • 混淆矩阵
  • 每一个类别都会有

模型调参数

  • 交叉验证:为了让数据都能够进行验证和训练,训练数据(训练+验证),K折交叉验证。
  • 网格搜索:每个参数都会查看效果,选出效果好的参数,参数组合(1,2)。