一、概述
- 是什么:
- 一个领域:
- 计算机无需明确编程即可学习的领域
- 一个计算科学领域
- 人工智能的一部分
- 一个领域:
- 做什么:
- 专门分析、解释数据的模式及结构,使得类似于学习、推理和决策等行为无需人工交互即可实现
- 学习算法:研究在计算机上从数据中产生“模型”的算法
- 研究如何通过计算的手段,利用经验(就是数据)来改善系统自身的性能
- 运行机制:
- 向模型馈送具有已知答案的参数数据
- 运行算法,进行调整,直到算法的输出与已知答案一致
- 保持不断学习
- 为什么要学
- 数据的重要性不言而喻,而机器学习能通过运行机制发掘出数据的价值,使得企业能做出较优决策,保持竞争力
- 应用领域:
- 各行各业:制造业+零售业+医疗保险+生命科学+旅游+酒店管理+金融+能源+原料+公用事业
二、核心部分
- 数据:基础
- 结构化数据(表格)
- 非结构化数据(图像、文本)
- 特征工程
- 将原始数据转换为可供机器学习算法使用的特征表示
- 比如:缩放、标准化、编码、降维
- 将原始数据转换为可供机器学习算法使用的特征表示
- 算法和模型
- 用于训练和推断的数学和统计方法(要根据具体场景选择适合的算法)
- 比如:线性回归、逻辑回归、决策树、支持向量机、随机森林、神经网络
- 用于训练和推断的数学和统计方法(要根据具体场景选择适合的算法)
- 模型训练
- 通过使用训练数据拟合模型的参数或权重,使其能对输入数据做出预测或分类
- 评估和调优
- 对模型的性能进行评估和调优
- 评估指标:准确率/召回率/F1值
- 对模型的性能进行评估和调优
- 预测和推断
三、基本术语
| 基本术语 | 是什么 | 表示 | 特点 | 组成 | 其他 |
|---|---|---|---|---|---|
| 记录/示例/样本/特征向量 | 每对括号内包含的数据 | (属性1=属性值1;属性2=属性值2...) | 属性/特征、属性值 | 维数:含有几个属性值描述就有几个维度 | |
| 属性空间/样本空间/输入空间 | 属性组成的空间 | ||||
| 数据集 | 记录的集合 | {示例1,示例2...} | |||
| 学习/锻炼 | 从数据中学得模型的过程 | 完成方式:执行某个算法 | |||
| 训练样本/训练示例/训练例 | 训练过程中使用的一组数据 | ||||
| 训练集 | 训练样本组成的集合 | ||||
| 假设 | 一种规律,机器学了模型后发现的数据规律 | ||||
| 真相/事实 | 一种规律,数据本身存在的规律 | ||||
| 模型/学习器 | 学习算法在给定数据和参数空间上的实例化 | ||||
| 标记 | 训练样本的结果信息 | ||||
| 样例 | 拥有了标记信息的示例 | (x,y),x,y右上角加上(i)表示第i个样例 | |||
| 标记空间/输出空间 | 所有标记的集合 | ||||
| 分类 | 预测的是离散值 | 二分类任务、多分类任务 | 二分类任务:一个是正类、一个是反类 | ||
| 回归 | 预测的是连续值 | ||||
| 测试 | 使用学得的模型进行预测 | ||||
| 测试样本 | 被预测的样本 | ||||
| 泛化能力 | 学得模型适用于新样本的能力 | ||||
| 归纳 | 从特殊到一般的泛化过程、从具体的事实归结出一般性规律 | 狭义、广义 | 狭义(概念学习/概念形成):从训练数据中学得概念;广义:从样例中学习 | ||
| 演绎 | 从一般到特殊过程,从基础原理推演出具体状况 | ||||
| (归纳)偏好 | 算法在学校过程中对某种类型假设的偏好 |
四、机器学习算法
- 监督学习(Supervised learning)/有导师学习:使用最多
- 无监督学习(Unsupervised learning)/无导师学习
- 强化学习(Reinforcement learning)
本文参考如下:
- 参考链接
- b站吴恩达机器学习