西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记

255 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的11天,点击查看活动详情

西瓜西瓜我爱你.png

西瓜西瓜我爱你

绪论-基本术语

数据集 data set

示例 instance

样本 sample

属性 attribute

特征 feature

属性值 attribute space

样本空间 sample space

特征向量 feature vector

D={x1, x2,...,xm}表示包含m个示例得数据集,每个示例由d个属性描述,则xi=(xi1,xi2,...,xid)是d维样本空间X中的一个向量,xi属于X,d成为样本xi的 维数 dimensionality。

从数据中学得模型的过程成为学习learning或者training

训练样本 training sample 训练集 training set 训练数据 train data

假设 hypothesis 真相 真实 ground-truth

学习器 learner 预测 prediction 标记 label 样本 example 标记空间 label space

预测值离散-分类 classification

预测值连续-回归 regression

二分类 binary classification

正类 positive class 反类 negative class 多分类 multi-class classification

测试 testing 测试样本 testing sample

聚类 clustering 簇 cluster

监督学习/无监督学习 supervised/unsupervised learning 分类和回归/聚类

泛化 generalization 分布 distribution 独立同分布 independent and identically distributed==i.i.d

归纳 induction 演绎 deduction // 泛化generalization 特化 specialization

归纳学习 inductive learning

奥克姆剃刀 ocam's razor 若有多个假设与观察一致,则选择最简单的那个

决策树 decision tree 和 基于逻辑的学习 归纳逻辑程序设计 Inductive Logic Programming ILP

统计学习 statistical learning 支持向量机 support vector machine

模型评估与选择

错误率 error rate

精度 accuracy

误差 error

训练误差 trianing error 经验误差 empirical error

泛化误差 generalization error

过拟合 overfitting

underfitting 欠拟合

模型选择 model selection

评估方法

测试集 testing set

测试误差 testing error

留出法 hold-out 训练集 S 测试集T 标记: 红色

交叉验证法 cross validation 标记: 红色

每个子集尽可能保持数据分布的一致性,每次用k-1个子集作为训练集,1个作为测试集

k折交叉验证k-fold cross validation

自助法 bootstrapping 采用自主采样法 bootstrap sampling为基础 标记: 红色

每次随机采样,然后再将该样本放回数据集,反复执行m次后,得到m个样本数据集

外包估计 out-of-bag estimate

调参与最终模型

参数 parameter 调参 parameter tuning

验证集 validation set

性能度量

performance measure

均方误差

错误率与精度

查准率、查全率与F1、P-R曲线、平衡点 break-event point 查准率=查全率 的取值

ROC与AUC

代价敏感错误率与代价曲线

比较检验

假设检验

交叉验证t检验

McNemar检验

Friedman检验与Nemenyi后续检验

偏差与方差