机器学习算法&Jupyter Notebook&机器学习术语

111 阅读3分钟

一、监督学习Supervised learning

  1. 学习方式:
    • 通过给定标注好的训练数据集进行学习
  2. 干什么:
    • 学习一个模型,使得对于新输入的数据,能够正确预测或分类其输出
  3. 关键特征:
    • 给予了学习算法示例(包含正确答案)
    • 每个示例都与输出标签相关联
  4. 类型:
    • 回归:
      • 干什么:
        • 预测数字(数字有无限种可能)
    • 分类:
      • 干什么:
        • 预测类别或划分类别(所有可能的输出都会成为一个小组)
  5. 监督学习的过程(借助线性回归模型说明):
    • 向监督学习算法中输入一个数据集,学习输入特征和输出目标
    • 算法产生功能函数f/模型
      • 表示:(w,b:模型的参数/系数/权重,一些可调整的变量) image.png
      • 工作:
        • 获取一个新的输入x,输出预测y-hat(一个具有小帽子符号的y)
      • 如何实现线性回归
        • 先构造一个成本函数:
          • 成本函数/平方误差成本函数:
            image.png
          • 如何使用一个成本函数来为模型找到最佳参数:梯度下降算法

二、无监督学习Unsupervised learning

  1. 学习方式:
    • 通过没有标注好的训练数据集进行学习
  2. 干什么:
    • 对未标记数据的学习来发现数据中的模式和结构,决定数据可以分配给哪个组或集群
  3. 关键特征:
    • 数据仅带有输入x,没有输出标签y
    • 算法必须找到数据中的某种结构或某种模式或某些有趣的东西
  4. 类型:
    • 聚类:
      • 将未标记的数据放置在不同的集群
    • 异常检测:
      • 检测异常事件
    • 降维:
      • 可将一个大数据集压缩得到一个小得多的数据集,并且信息丢失得尽可能少

三、Jupyter Notebook

  1. 是什么:
    • 机器学习领域中一种重要的工具和环境
  2. 应用于:
    • 数据探索、模型构建和训练、实验复现和结果分享
  3. 能做什么:
    • Jupyter Notebook提供了一个交互式的编程环境,在该环境中运行代码块时,可以实时观察到数据可视化和模型训练结果,快速迭代并调整模型参数
    • 集成了许多常用的机器学习库和框架,用户能够在Notebook中直接使用这些工具来构建和训练机器学习模型,就不需要切换到其他编程环境
    • Jupyter Notebook能与高性能计算集群或云计算平台结合使用,能够更高效地完成大规模数据分析和机器学习任务
  4. 如何安装:

四、机器学习术语:

  1. 训练集:用于训练模型的数据集
    • 组成:
      • x:输入变量/特征/输入特征
      • y:输出变量y/目标变量
        • 是什么:
          • 我们将从中学习的模型的正确答案
  2. m:训练样本的总数
  3. (x,y):单个训练样例
    • x,y右上角加上(i):第i个训练样例