机器学习算法&Jupyter Notebook&机器学习术语

2023-09-03 111 阅读3分钟

一、监督学习Supervised learning

学习方式：
- 通过给定标注好的训练数据集进行学习
干什么：
- 学习一个模型，使得对于新输入的数据，能够正确预测或分类其输出
关键特征：
- 给予了学习算法示例（包含正确答案）
- 每个示例都与输出标签相关联
类型：
- 回归：
  - 干什么：
    - 预测数字（数字有无限种可能）
- 分类：
  - 干什么：
    - 预测类别或划分类别（所有可能的输出都会成为一个小组）
监督学习的过程（借助线性回归模型说明）：
- 向监督学习算法中输入一个数据集，学习输入特征和输出目标
- 算法产生功能函数f/模型
  - 表示：（w,b：模型的参数/系数/权重，一些可调整的变量）
  - 工作：
    - 获取一个新的输入x，输出预测y-hat(一个具有小帽子符号的y)
  - 如何实现线性回归
    - 先构造一个成本函数：
      - 成本函数/平方误差成本函数：
      - 如何使用一个成本函数来为模型找到最佳参数：梯度下降算法

二、无监督学习Unsupervised learning

学习方式：
- 通过没有标注好的训练数据集进行学习
干什么：
- 对未标记数据的学习来发现数据中的模式和结构，决定数据可以分配给哪个组或集群
关键特征：
- 数据仅带有输入x，没有输出标签y
- 算法必须找到数据中的某种结构或某种模式或某些有趣的东西
类型：
- 聚类：
  - 将未标记的数据放置在不同的集群
- 异常检测：
  - 检测异常事件
- 降维：
  - 可将一个大数据集压缩得到一个小得多的数据集，并且信息丢失得尽可能少

三、Jupyter Notebook

是什么：
- 机器学习领域中一种重要的工具和环境
应用于：
- 数据探索、模型构建和训练、实验复现和结果分享
能做什么：
- Jupyter Notebook提供了一个交互式的编程环境，在该环境中运行代码块时，可以实时观察到数据可视化和模型训练结果，快速迭代并调整模型参数
- 集成了许多常用的机器学习库和框架，用户能够在Notebook中直接使用这些工具来构建和训练机器学习模型，就不需要切换到其他编程环境
- Jupyter Notebook能与高性能计算集群或云计算平台结合使用，能够更高效地完成大规模数据分析和机器学习任务
如何安装：
- Jupyter Notebook介绍、安装及使用教程

四、机器学习术语：

训练集：用于训练模型的数据集
- 组成：
  - x：输入变量/特征/输入特征
  - y：输出变量y/目标变量
    - 是什么：
      - 我们将从中学习的模型的正确答案
m：训练样本的总数
(x,y)：单个训练样例
- x,y右上角加上(i)：第i个训练样例