模型&数据挖掘知识

227 阅读4分钟

这是我参与8月更文挑战的第11天,活动详情查看:8月更文挑战

数据挖掘的核心 - 建模 - 利用模型 学习已知结果的数据集 中的 变量特征

数据挖掘中数据集分为哪几类?

训练集:训练模型
结果已知, 模型训练拟合的数据样本, - 占总体样本 70%-80%
验证集:模型调参
结果已知,验证 通过训练集 得到的模型效果, 对模型中的超参数进行选择
测试集:验证结果 结果未知,利用模型 输出结果 的 数据集

简述参数和超参数之间的区别

参数:通过模型 对训练集的拟合 获得的
超参数:模型训练前 人为地给出超参数【决策树的高度,随机森林树的数量】- 在验证集中进行验证

选择更加复杂的模型进行调参是否能有更好的结果?

否,模型复杂度的增加 - 过拟合现象 - 误差的增加

简述过拟合和欠拟合

偏差和方差 - 误差是偏差+方差
偏差:模型在训练集样本上期望输出真实结果之间的差距 - 模型本身的精确度 - 模型本身的拟合能力 - 偏差过高 - 模型欠拟合 - 模型过于简单,没有很好的拟合训练集变量之间的特征 - 提升模型的复杂度
方差:模型在不同的训练集下得到的结果和真实结果之间误差波动情况 - 模型的稳定性 训练集中会存在噪声 - 噪声不具有通用性 - 不同的训练集有不同的噪声 - 模型过于复杂 - 大量学习训练集中的噪声 - 模型泛化能力变差 - 过拟合
模型训练 - 平衡过拟合和欠拟合 - 通过在验证集中的验证工作 - 选择合适的超参数 - 降低误差

常见的模型分类方法有哪些

根据训练样本是否带有标签 - 监督学习和非监督学习 根据参数模型的目标函数是否确定 - 参数模型和非参数模型
根据概率分布的不同 - 生成模型和判别模型

简述监督学习和非监督学习的区别

监督学习:训练样本中 特征+标签 - 通过训练 - 让机器可以自己找到特征和标签之间的联系 - 只有特征没有标签的数据 - 通过模型获得标签
标签是连续的/离散的【标签数量是否可数】 - 预测问题/分类问题

非监督学习:数据集中只有特征没有标签 - 数据之间的内在联系和相似性将样本划分成若干类 - 聚类/对高维数据进行降维

分类:监督学习 - 标签可数 - 判断结果所属的类别
聚类:非监督学习 - 数据之间的内在联系和相似性 - 样本划分为若干类

image.png

简述参数模型和非参数模型的区别及各自优缺点

参数模型 f(x)形式 - 训练前就已经确定
线性回归模型、逻辑回归模型、朴素贝叶斯模型
优:可解释性模型学习和训练相对快速数据量要求低

缺:要提前对目标函数做出假设,现实问题很难真正应用某一目标函数、复杂问题欠拟合

非参数模型 - 训练前没有对目标函数限定其形式 - 通过训练不断修改目标函数的形式
训练数据量趋于无穷 - 非参数模型可逼近任意复杂的真实模型 - 数据量大,逻辑复杂的问题
很多超参数需要选择 - 非参数模型更复杂,计算量更大,对问题的可解释性更弱
SVM模型、决策树模型、随机森林模型

半参数模型 - 神经网络模型
1. 固定了隐层的数目及每一层神经元的个数 - 参数模型
1. 实际 - 通过验证集进行验证 - 隐层数目和每一次神经元的个数

简单介绍生成模型和判别模型的概念

生成模型学习 - 联合概率分布P(x,y) - 特征x和标签y共同出现的概率 - 求条件概率分布 - 学习到数据生成的机制
朴素贝叶斯模型、混合高斯模型、隐马尔可夫模型
所需数据量较大 - 较好地估计概率密度 - 数据量较充足的情况下 - 生成模型的收敛速度较快 - 能够处理隐变量问题 - 准确率及适用范围弱于判别模型

判别模型学习【目前使用的大部分模型】 - 条件概率分布P(y|x) - 特征x出现的情况下标签y出现的概率 决策树模型、svm模型、逻辑回归模型
数据量的要求不高