机器学习算法&Jupyter Notebook&机器学习术语
一、监督学习Supervised learning
- 学习方式:
- 干什么:
- 学习一个模型,使得对于新输入的数据,能够正确预测或分类其输出
- 关键特征:
- 给予了学习算法示例(包含正确答案)
- 每个示例都与输出标签相关联
- 类型:
- 回归:
- 分类:
- 干什么:
- 预测类别或划分类别(所有可能的输出都会成为一个小组)
- 监督学习的过程(借助线性回归模型说明):
- 向监督学习算法中输入一个数据集,学习输入特征和输出目标
- 算法产生功能函数f/模型
- 表示:(w,b:模型的参数/系数/权重,一些可调整的变量)

- 工作:
- 获取一个新的输入x,输出预测y-hat(一个具有小帽子符号的y)
- 如何实现线性回归
- 先构造一个成本函数:
- 成本函数/平方误差成本函数:

- 如何使用一个成本函数来为模型找到最佳参数:梯度下降算法
二、无监督学习Unsupervised learning
- 学习方式:
- 干什么:
- 对未标记数据的学习来发现数据中的模式和结构,决定数据可以分配给哪个组或集群
- 关键特征:
- 数据仅带有输入x,没有输出标签y
- 算法必须找到数据中的某种结构或某种模式或某些有趣的东西
- 类型:
- 聚类:
- 异常检测:
- 降维:
- 可将一个大数据集压缩得到一个小得多的数据集,并且信息丢失得尽可能少
三、Jupyter Notebook
- 是什么:
- 应用于:
- 能做什么:
- Jupyter Notebook提供了一个交互式的编程环境,在该环境中运行代码块时,可以实时观察到数据可视化和模型训练结果,快速迭代并调整模型参数
- 集成了许多常用的机器学习库和框架,用户能够在Notebook中直接使用这些工具来构建和训练机器学习模型,就不需要切换到其他编程环境
- Jupyter Notebook能与高性能计算集群或云计算平台结合使用,能够更高效地完成大规模数据分析和机器学习任务
- 如何安装:
四、机器学习术语:
- 训练集:用于训练模型的数据集
- 组成:
- x:输入变量/特征/输入特征
- y:输出变量y/目标变量
- m:训练样本的总数
- (x,y):单个训练样例