这是我参与8月更文挑战的第11天,活动详情查看:8月更文挑战
数据挖掘的核心 - 建模 - 利用模型 学习已知结果的数据集 中的 变量特征
数据挖掘中数据集分为哪几类?
训练集:训练模型
结果已知, 模型训练拟合的数据样本, - 占总体样本 70%-80%
验证集:模型调参
结果已知,验证 通过训练集 得到的模型效果, 对模型中的超参数进行选择
测试集:验证结果
结果未知,利用模型 输出结果 的 数据集
简述参数和超参数之间的区别
参数:通过模型 对训练集的拟合 获得的
超参数:模型训练前 人为地给出超参数【决策树的高度,随机森林树的数量】- 在验证集中进行验证
选择更加复杂的模型进行调参是否能有更好的结果?
否,模型复杂度的增加 - 过拟合现象 - 误差的增加
简述过拟合和欠拟合
偏差和方差 - 误差是偏差+方差
偏差:模型在训练集样本上期望输出与真实结果之间的差距 - 模型本身的精确度 - 模型本身的拟合能力 - 偏差过高 - 模型欠拟合 - 模型过于简单,没有很好的拟合训练集变量之间的特征 - 提升模型的复杂度
方差:模型在不同的训练集下得到的结果和真实结果之间误差的波动情况 - 模型的稳定性
训练集中会存在噪声 - 噪声不具有通用性 - 不同的训练集有不同的噪声 - 模型过于复杂 - 大量学习训练集中的噪声 - 模型泛化能力变差 - 过拟合
模型训练 - 平衡过拟合和欠拟合 - 通过在验证集中的验证工作 - 选择合适的超参数 - 降低误差
常见的模型分类方法有哪些
根据训练样本是否带有标签 - 监督学习和非监督学习
根据参数模型的目标函数是否确定 - 参数模型和非参数模型
根据概率分布的不同 - 生成模型和判别模型
简述监督学习和非监督学习的区别
监督学习:训练样本中 特征+标签 - 通过训练 - 让机器可以自己找到特征和标签之间的联系 - 只有特征没有标签的数据 - 通过模型获得标签
标签是连续的/离散的【标签数量是否可数】 - 预测问题/分类问题
非监督学习:数据集中只有特征没有标签 - 数据之间的内在联系和相似性将样本划分成若干类 - 聚类/对高维数据进行降维
分类:监督学习 - 标签可数 - 判断结果所属的类别
聚类:非监督学习 - 数据之间的内在联系和相似性 - 样本划分为若干类
简述参数模型和非参数模型的区别及各自优缺点
参数模型 f(x)形式 - 训练前就已经确定
线性回归模型、逻辑回归模型、朴素贝叶斯模型
优:可解释性、模型学习和训练相对快速、数据量要求低
缺:要提前对目标函数做出假设,现实问题很难真正应用某一目标函数、复杂问题欠拟合
非参数模型 - 训练前没有对目标函数限定其形式 - 通过训练不断修改目标函数的形式
训练数据量趋于无穷 - 非参数模型可逼近任意复杂的真实模型 - 数据量大,逻辑复杂的问题
很多超参数需要选择 - 非参数模型更复杂,计算量更大,对问题的可解释性更弱
SVM模型、决策树模型、随机森林模型
半参数模型 - 神经网络模型
1. 固定了隐层的数目及每一层神经元的个数 - 参数模型
1. 实际 - 通过验证集进行验证 - 隐层数目和每一次神经元的个数
简单介绍生成模型和判别模型的概念
生成模型学习 - 联合概率分布P(x,y) - 特征x和标签y共同出现的概率 - 求条件概率分布 - 学习到数据生成的机制
朴素贝叶斯模型、混合高斯模型、隐马尔可夫模型
所需数据量较大 - 较好地估计概率密度 - 数据量较充足的情况下 - 生成模型的收敛速度较快 - 能够处理隐变量问题 - 准确率及适用范围弱于判别模型
判别模型学习【目前使用的大部分模型】 - 条件概率分布P(y|x) - 特征x出现的情况下标签y出现的概率 决策树模型、svm模型、逻辑回归模型
数据量的要求不高