构建机器学习模型时的挑战

132 阅读4分钟

机器学习充满了许多优点和应用,这是机器学习和人工智能流行的两个主要原因。目前,像 ChatGPT 和许多其他工具这样的人工智能工具在每个行业都被用作专家指南。在许多公司和初创企业中,内容创建者因为 ChatGPT 而成为内容编辑者。要在机器学习上构建小项目,我们面临很多挑战,而构建这种类型的工具,我们可能面临更多的大挑战。在这里,我谈论的是如果您不修复它们可能会对您的模型产生不良影响的主要挑战。

训练数据量不足

作为初学者,您无法在一周内学会编码,因此需要大量时间来学习编码并自行应用逻辑来解决问题。在此之后,只有您被认证为优秀的编码员或开发人员。将此初学者视为机器学习模型。一个模型不能在少量数据上训练,它还不完全存在。机器学习的缺点是,大多数模型需要大量数据才能正常工作。即使是一个非常小的问题也需要数千个示例来训练,而图像识别等复杂问题则需要数百万个示例来训练。要克服这一挑战,您必须拥有大量训练示例。

非代表性训练数据

现在您已经克服了上述挑战,并且您的模型有大量训练示例,但问题是许多示例不具有代表性。要很好地概括,您的训练数据必须代表您要概括的新案例。您对这些示例一无所知,这些示例属于哪一列,或者这些示例是否真的有用。如果示例不具有代表性,那几乎没有用。您使用不太可能做出准确预测的非代表性数据训练模型。

质量差的数据

很明显,如果您的训练数据充满错误、异常值和噪音,那么系统就很难检测到潜在的模式,因此您的系统不太可能表现良好。花时间清理训练数据通常是非常值得的,而且大多数数据科学家花费大量时间来清理数据。

不相关的特征

您的系统需要大量具有足够相关特征的数据进行训练,而不是大量具有太多不相关特征的数据。机器学习项目成功的一个关键部分是提出一组好的功能来训练您的系统。特征工程技能来了。我在之前的博客中已经提到了特征工程技能的重要性。

  • 特征选择:选择最有用的特征进行训练。
  • 特征提取:组合现有特征以产生更有用的特征。
  • 通过收集新数据创建新功能。

过度拟合训练数据

过度拟合就像我们人类经常为小事做的过度概括。当训练数据过度拟合时,了解模型在训练数据上表现良好,但泛化效果不佳。深度神经网络等复杂模型可以检测数据中的细微模式,但如果训练数据嘈杂且较小,则该模型很可能检测到噪声本身的模式。当模型相对于训练数据的数量和噪音过于复杂时,就会发生过度拟合。

过度拟合的可能解决方案是:

  1. 选择参数较少的简单模型,减少训练数据中的属性数量或对模型进行约束。
  2. 收集更多训练数据。
  3. 修复数据错误并移除异常值以减少训练数据中的噪声。

欠拟合训练数据

欠拟合与过拟合相反。当您的模型太简单而无法学习数据的底层结构时,就会发生这种情况。当方差高时,表明过度拟合;当方差低且模型存在严重偏差时,则表明欠拟合。

欠拟合的可能解决方案是:

  1. 选择具有更多参数的更强大的模型。
  2. 学习算法的特征工程。
  3. 减少对模型的约束。

在构建机器学习项目时注意这些。当您处理这些事情时,您的机器学习项目将处理您想要的结果。