开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第30天 点击查看活动详情
统计学习的概念
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称为统计机器学习(statistial machine learning)。
主要特点
- 统计机器学习是以计算机及网络为平台,建立在计算机及网络之上;以数据为研究对象,是数据驱动的学科。统计学习的目的是对数据进行预测和分析,统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测和分析。统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。
- 统计学习的对象是数据,从数据出发,提取数据特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析和预测中去。(数据包括各种数字、文字、图像、视频、音频数据以及它们的组合)。
- 统计学习关于数据的基本假设是同类数据具有一定的统计规律性(统计学习的前提)
统计学习的三要素
-
统计学习方法都是由模型、策略和算法构成的,即统计学习方法由三要素构成,可以简单地表示为:方法=模型+策略+算法
-
统计学习首要考虑的问题事学习什么样的模型。在监督学习过程中,模型就是索要学习的条件概率分布或决策函数。模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。
-
策略 获取模型的假设空间后,接着需要考虑的是按照什么样的准则学习或选择最优的模型,统计学习的目的在于从假设空间中选取最优模型。 首先引入随时函数与风险评估函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
-
算法是指学习模型的具体计算方法,用于求解最优化模型。