2024年机器学习课程总结

125 阅读4分钟

明天要考试了,遂将ppt的问题整理归纳如下:

  1. 机器学习是什么?
  2. 机器学习的三大步骤?
  3. 经验误差越小越好吗?
  4. 模型选择的三个问题?
  5. 评估方法的关键?
  6. 用留出法要注意什么?
  7. 自助法的包外估计
  8. 性能度量?
  9. 分类结果混淆矩阵?
  10. P?
  11. R?
  12. PR图?
  13. BEP?
  14. F1?
  15. Fβ?
  16. 在某种度量下获得评估结果后,是否可以直接比较以评判优劣?
  17. 神经网络?
  18. 激活函数?
  19. BP?
  20. 多层网络?
  21. 前馈网络?
  22. 功能单元?
  23. 感知机?
  24. 标准BP算法?
  25. 累积BP算法?
  26. 缓解过拟合?
  27. 跳出“局部最优”策略?
  28. CNN?
  29. 特征映射?
  30. 采样层?
  31. 连接层?
  32. 为什么难以用经典BP算法训练?
  33. 提升模型复杂度的好处和坏处?
  34. 一些tricks?
  35. 深度学习最重要的特征?
  36. 现代流行的流式模型架构?
  37. RNN?
  38. LSTM?
  39. 3个控制开关?门?
  40. Transformer?

回答:

  1. 机器学习是在特定场景、特定任务下寻找一个最优函数这样一个过程
  2. 第一:定义一组函数;第二,将模型与数据拟合;第三,寻找最优函数
  3. 不是这样的,因为会导致“过拟合”,即泛化误差大,经验误差小
  4. 第一,如何获得测试结果;第二,如何评估性能优劣;第三,如何判断实质差异
  5. 如何获得测试集,注意测试集与训练集互斥
  6. 第一,保持数据分布一致性(采用分层采样);第二,多次重复进行数据划分(100次随机划分);第三,测试集不能太大,也不能太小(13\frac{1}{3}15\frac{1}{5}
  7. 在数据集中将除训练集外的数据当做测试数据的方法,limitm(11m)m=1elimit_{m\to \infty}{(1-\frac{1}{m})^m}=\frac{1}{e}
  8. 反映任务需求,
  9. P=TPTP+FPP=\frac{TP}{TP+FP}
  10. R=TPTP+FNR=\frac{TP}{TP+FN}
  11. 平衡点
  12. F1=2PRP+R=2TP样本总数+TPTNF_1=\frac{2PR}{P+R}=\frac{2TP}{样本总数+TP-TN}
  13. Fβ=(1+β2)PRβ2P+RF_\beta=\frac{(1+{\beta}^2)PR}{{\beta}^2P+R}
  14. 不能。第一,很多机器学习的算法具有一定随机性;第二,测试性能不等于泛化性能;第三,测试误差在测试集上随时间变化而变化
  15. 神经网络是具有适应性的神经单元的广泛并行互联的网络,模拟了生物神经系统与外界环境的真实交互反应
  16. 理想的激活函数是阶跃函数,但阶跃函数具有不光滑、不连续等不好的性质,所以选择Sigmoid函数
  17. 误差逆传播算法,链式法则
  18. 具有隐层的神经网络
  19. 同一层的神经单元没有层内连接或跨层连接,即无环或闭路
  20. 隐层和输出层的神经单元
  21. 无隐层的神经网络
  22. 每次计算更新一个样例,更新频繁,不同样例可能抵消,需要多次迭代
  23. 最小化全局神经网络的误差,更新缓慢,在大的训练集上表现不好,会出现进一步下降时停滞的现象
  24. 第一,早停。包括多次训练轮数的训练误差下降小于b;经验误差下降,验证误差上升;第二,正则化,在误差目标函数上增加反映神经网络结构
  25. 第一,用不同的初始参数;第二,模拟退火;第三,随机扰动;第四,遗传算法
  26. 卷积神经网络
  27. 多个神经元表示的一张“图”,用卷积滤波器表示输入的一个特征
  28. 用局部相关性原理,降低数据量同时保证数据有用性
  29. 隐层和输出层之间的层
  30. 误差梯度在隐层传播时不能收敛到一个稳定的值
  31. 好处:增强学习能力;坏处:提升训练难度;提升过拟合的风险
  32. 不知道
  33. 表示学习和优化
  34. DATA NETWORK LOSS
  35. 表示学习
  36. 解决长期依赖性的特殊RNN
  37. 遗忘门;输入门;输出门
  38. 基本单元:Encoder和Decoder;核心组件:多头自注意力机制;前馈神经网络。KQV