机器学习笔记——一些基本概念

819 阅读3分钟

instance(实例)or sample(样本)

表示数据集中每条记录,记录内容为关于一个事件或对象的描述。

attribute(属性) or frature(特征)

反映事件或对象在某方面的表现或性质的事项,例如西瓜的色泽、敲声等。

属性值 or 特征值

属性或特征的取值,如西瓜的色泽为青绿等。

attribute space(属性空间) or samp1e space (样本空间)or input space(输入空间)

属性张成的空间,例如把"色泽" "根蒂" "敲声"三个属性作为坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。

fearute vector(特征向量)

属性张成的空间中的每个样本点对应一个坐标向量,因此一个实例也可称为一个特征向量。

dimensionality 维数

对于包含mm个实例的数据集DD,每个实例xi=(xi1,...,xid)\pmb{x}_i=(x_{i1},...,x_{id})dd个特征描述,每个实例是dd维样本空间X\mathcal{X}中的一个向量,即xiX\pmb{x}_i \in \mathcal{X}dd则称为样本xi\pmb{x}_i的维数。

hypothesis 假设

学到的模型对应于数据相关的某种潜在规律,将其称之为假设。

ground-truth 真相/真实

模型学习的过程就是为了找出或逼近真相/真实。

label 标签/标记

关于实例的分类结果信息称为标记,例如西瓜的标记可以是好瓜或者坏瓜。

label space 标记空间 or output space 输出空间

(xi,yi),yiY(\pmb{x}_i,y_i),y_i \in \mathcal{Y}表示第ii个带有标记的样例,则Y\mathcal{Y}是所有标记的集合,称为标记空间或输出空间。

classification 分类和regression 回归

分类预测的是离散值(如好或坏),回归预测的是连续值(如温度、湿度)。对于一个训练集{(x1,y1),...,xm,ym)}\{(\pmb{x}_1,y_1),...,\pmb{x}_m,y_m)\},学习目标是建立一个样本空间到标记空间的映射,即XY\mathcal{X} \mapsto \mathcal{Y},对于二分类任务,Y={1,+1} or {0,1}\mathcal{Y}=\{-1,+1\}\ or\ \{0,1\} ;对于多分类任务,Y>2|\mathcal{Y}|>2;对于回归任务Y=R\mathcal{Y}=\mathbb{R}R\mathbb{R}表示实数集。

testing 测试

通过训练学得映射函数ff,对测试样例x\pmb{x}得到测试标记y=f(x)y=f(\pmb{x})

generalization 泛化能力

通过训练集样本学习得到的模型适用于样本空间中其他样本的能力称为泛化能力。

independent and identically distributed, i.i.d 独立同分布

假设样本空间中全体样本服从一个未知的分布D\mathcal{D},获得的样本每个都是独立从分布上采样分到,称之为独立同分布。

inductive learning 归纳学习

广义是指从样例中学习,狭义是指从训练数据中学到概念(concept),也称之为概念学习。

inductive bias 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,如下图所示,训练集中有几个样本点,学得与训练集分布一致的模型即找到一条能够穿过所有样本点的曲线并用找到一个函数来表示这条曲线,对于这几个样本点可能有无数条曲线可以同时穿过它们,因此必须令学习算法有某种“偏好”才能选出一条最“正确”的曲线:

image.png

Occam's razor 奥卡姆剃刀

一种常用的偏好设置原则:“若存在多个假设与观察一致,则选择最简单的假设”。在回归问题中,一般认为“更平滑”的曲线更简单(因为用函数表示更容易)。