机器学习

79 阅读3分钟

一、概述

  1. 是什么:
    • 一个领域
      • 计算机无需明确编程即可学习的领域
      • 一个计算科学领域
    • 人工智能的一部分
  2. 做什么:
    • 专门分析、解释数据的模式及结构,使得类似于学习、推理和决策等行为无需人工交互即可实现
    • 学习算法:研究在计算机上从数据中产生“模型”的算法
    • 研究如何通过计算的手段,利用经验(就是数据)来改善系统自身的性能
  3. 运行机制:
    • 向模型馈送具有已知答案的参数数据
    • 运行算法,进行调整,直到算法的输出与已知答案一致
    • 保持不断学习
  4. 为什么要学
    • 数据的重要性不言而喻,而机器学习能通过运行机制发掘出数据的价值,使得企业能做出较优决策,保持竞争力
  5. 应用领域:
    • 各行各业:制造业+零售业+医疗保险+生命科学+旅游+酒店管理+金融+能源+原料+公用事业

二、核心部分

  1. 数据:基础
    • 结构化数据(表格)
    • 非结构化数据(图像、文本)
  2. 特征工程
    • 将原始数据转换为可供机器学习算法使用的特征表示
      • 比如:缩放、标准化、编码、降维
  3. 算法和模型
    • 用于训练和推断的数学和统计方法(要根据具体场景选择适合的算法)
      • 比如:线性回归、逻辑回归、决策树、支持向量机、随机森林、神经网络
  4. 模型训练
    • 通过使用训练数据拟合模型的参数或权重,使其能对输入数据做出预测或分类
  5. 评估和调优
    • 对模型的性能进行评估和调优
      • 评估指标:准确率/召回率/F1值
  6. 预测和推断

三、基本术语

基本术语是什么表示特点组成其他
记录/示例/样本/特征向量每对括号内包含的数据(属性1=属性值1;属性2=属性值2...)属性/特征、属性值维数:含有几个属性值描述就有几个维度
属性空间/样本空间/输入空间属性组成的空间
数据集记录的集合{示例1,示例2...}
学习/锻炼从数据中学得模型的过程完成方式:执行某个算法
训练样本/训练示例/训练例训练过程中使用的一组数据
训练集训练样本组成的集合
假设一种规律,机器学了模型后发现的数据规律
真相/事实一种规律,数据本身存在的规律
模型/学习器学习算法在给定数据和参数空间上的实例化
标记训练样本的结果信息
样例拥有了标记信息的示例(x,y),x,y右上角加上(i)表示第i个样例
标记空间/输出空间所有标记的集合
分类预测的是离散值二分类任务、多分类任务二分类任务:一个是正类、一个是反类
回归预测的是连续值
测试使用学得的模型进行预测
测试样本被预测的样本
泛化能力学得模型适用于新样本的能力
归纳从特殊到一般的泛化过程、从具体的事实归结出一般性规律狭义、广义狭义(概念学习/概念形成):从训练数据中学得概念;广义:从样例中学习
演绎从一般到特殊过程,从基础原理推演出具体状况
(归纳)偏好算法在学校过程中对某种类型假设的偏好

四、机器学习算法

  1. 监督学习(Supervised learning)/有导师学习:使用最多
  2. 无监督学习(Unsupervised learning)/无导师学习
  3. 强化学习(Reinforcement learning)



本文参考如下:

  1. 参考链接
  2. b站吴恩达机器学习