机器学习课后习题(二)

221 阅读5分钟

2.1

  1. 题目:
    • 数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式
  2. 知识点:
    • 留出法:
      • 是什么:
        • 一种常用的机器学习评估方法
      • 干什么:
        • 将数据集划分为训练集和测试集两部分,以评估模型的性能
      • 操作步骤:
        • 划分:将原始数据集按照一定比例划分数据集为训练集和测试集
        • 训练:使用训练集训练模型
        • 评估:使用测试集评估训练好的模型其性能
      • 优点:
        • 简单易操作,不需要复杂的交叉验证过程,适于较大规模的数据集
      • 不足:
        • 只能得到一种划分下的评估结果,数据划分的稳定性较差,评估结果可能会出现偏差
  3. 解题步骤:
    • 本题要估算划分方式,所以先得知道大体的数据集划分情况
      • 根据题意:
        • 训练集:
          • 样本数量:1000*70%=700
          • 尽可能保持数据的一致性
            • 训练集、测试集各类型数据与数据集各类型数据比例差不多
            • 正例:700*(500/1000)=350
            • 同理:反例350
        • 测试集:
          • 同理:正例、反例各150
    • 划分方式数量:组合数求解C1*C2
      • C1指C(右上角350,右下角500)
      • C2指C(右上角350,右下角500)

2.2

  1. 题目:
    • 数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果
  2. 知识点:
    • n折交叉验证法:
      • 是什么:
        • 一种机器学习模型评估方法,在有限的训练集上进行模型的训练及评估
      • 操作步骤
        • 通过分层采样从数据集中产生n个互斥子集,每个子集尽可能保持数据分布的一致性
        • 取一个子集做测试,其他的做训练集
        • 依次对所有子集进行评估,计算错误率
      • 优点:
        • 充分利用有限的数据集进行模型评估,有效减少了评估结果因数据划分不同引起的偏差
      • 不足:
        • 计算开销较大
    • 留一法:
      • 是什么:
        • 一种机器交叉验证方法,用来评估机器性能,跟n折交叉验证法是同一性质
      • 操作步骤:
        • 训练集里每个样本都会单独用作测试集,剩下的所有样本做训练集
        • 利用训练好的模型对被排除的样本进行预测,记录预测结果与真实标签之间的误差或准确率
        • 对于所有的误差或准确率求平均,作为最终的评估结果
      • 优点:
        • 评估结果相对可靠
      • 不足:
        • 计算成本较高,特别是数据集很大时!
  3. 解题步骤:
    • 采用10折交叉验证法:通过分层采样划分了10个互斥子集,并保持了每个子集正反例与数据集一样的比例,每个取1个子集当做测试集,剩余为训练集,错误率50%
    • 采用留一法:留出来的测试样本有两种可能,分别是正例和反例,这样就得到了训练集的正反例比例,以此来预测测试集,错误率100%

2.3

  1. 题目:
    • 若学习器A的F1值比学习器B的高,试分析A的BEP值是否比B高
  2. 知识点:
    • F1值:
      • 是什么:
        • F1值是一个综合考虑了精确率(Precision)和召回率(Recall)的评估指标
      • 范围:
        • 介于0和1之间,数值越高表示分类器的性能越好
      • 计算公式:
        • F1=2*(Precision*Recall)/(Precision+Recall)
          • Precision表示正确预测为正例的样本占所有预测为正例的样本的比例
          • Recall表示正确预测为正例的样本占所有真实正例样本的比例
    • BEF值:
      • 是什么:
        • 用于对比两个分类器性能的指标,主要考虑分类器在“查准率等于查全率”时的表现
  3. 解题步骤:
    • 如果学习器A的F1值比学习器B的高,说明分类器A在Precision和Recall上都相对较高
    • 推测学习器A的BEP值可能比学习器B的高,因为学习器A在平衡精确率和召回率时的性能相对较好

2.4

  1. 题目:
    • 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系
  2. 知识点:
    • TPR/召回率Recall:
      • 所有真正例(TP)占所有实际正例(P)的比例
    • FPR:
      • 所有假正例(FP)占所有实际负例(N)的比例
    • P:
      • 所有真正例(TP)占所有预测正例(TP+FP)的比例
    • R:
      • 所有真正例(TP)占所有实际正例(P)中的比例
  3. 解题步骤:
    • 由知识点可得:
      • TPR=TP/(TP+FN)
      • FPR=FP/(TN+FP)
      • P=TP/(TP+FP)
      • R=TP/(TP+FN)

参考资料:
  1. 西瓜书:周志华《机器学习》
  2. 机器学习-CSDN博客