参考书籍《机器学习》周志华著
给出下面一张表:
表是由多条记录构成,记录的集合称 数据集
每条记录称为一个实例
说明:(笔者认为这里可能存在歧义 实例可以视为描述的对象名,也可以视为描述的对象名与对象的属性和属性取值的集合,例如“西瓜1”是一个实例,也可以说"西瓜1:(色泽 = 青绿,根蒂 = 蜷缩,敲声 = 浑浊)"是一个实例,但是不影响理解,暂且理解为后者)
属性:描述对象特点的东西 也叫做特征
属性值:属性的取值,也叫做特征值
属性空间:属性张成的空间
张成空间:所有可以表示为给定向量线性组合的向量的集合,被称为向量的张成空间
例如我们把“色泽、根蒂、敲声”作为三个坐标轴,他们张成一个描述西瓜的三维空间 每个实例都能在空间中找到自己的点,与原点连接,构成一个特征向量
一般来说,令D = {x1,x2...xi},i个实例构成了数据集D,每个实例由j个属性描述;
对于实例 xi = (xi1,xi2...xij)
它是j维空间的一个向量,xi∈V(j个属性张成的j维空间)
从数据到得出模型的过程 称训练,也可以称学习
学得的模型对应的某种规律 称假设,也可以称猜测,笔者认为可以视为主观总结的结论
而潜在规律自身,称真实,也可以称真相,笔者认为可以视为客观存在的宇宙规律\
假设的表示形式一旦确定,假设空间及其规模就确定下来。
色泽有“青绿、乌黑、浅白”,根蒂有“蜷曲,微蜷,硬挺”,敲声有“浑浊、沉闷、清脆”
那么根据排列组合,一共可以有3*3*3种示例西瓜,
那么我们的假设空间的规模大小就是27
形式上的表达形如"(色泽=?)^(根蒂 = ?)^(敲声 = ?))"
但一个好瓜也可能对色泽(也可以是其他属性)没有要求,也就是任意的取值,使用"*"通配符表示
那么实际上,每个属性的取值在原来的基础上加一,故实际假设空间是4*4*4 = 64
然而,我们期望在假设空间中找到能够对所有训练样本进行正确判断的假设,因此可能符合条件的假设不止一个,这种假设的集合,我们称 “版本空间”
标签:类似于前述对象名的作用,都是为了标记一个对象
例如“好瓜←→(色泽 = 青绿^根蒂 = 微蜷^敲声 = 清脆)”,我们给实例打上了标签,那么实例+标签 = 样例,所有标记的集合称“标记空间”,也叫作“输出空间”
然而,我们期望建立一组映射:输入空间→输出空间,也叫把实例映射到标记空间上。
根据标记的连续性和离散性,可以分为回归和分类
根据训练数据是否有标记,可以分为监督学习和无监督学习
以上所有,都是为了共同促进一个能力:泛化能力,使得模型能够对新的数据作出准确的判断。
另外,涉及归纳偏好的总结,引用这篇文章:# 浅谈NFL没有免费的午餐定理