什么是机器学习中的概率模型?贝叶斯全解答

1,504 阅读6分钟

简介

机器学习中的概率模型是使用统计学的代码来检查数据。它是机器学习的最初方法之一。直到今天,它仍然被广泛使用。这一组中最著名的算法是Naive Bayes算法。

概率模型提供了一个接受学习是什么的框架。概率框架定义了如何标志和部署对模型的保留。预测在科学数据分析中具有主导作用。它们的作用在机器学习、自动化、认知计算和人工智能中也是如此重要。

描述

概率模型是作为定义世界的一个普遍的成语提出来的。这些模型是通过使用随机变量来描述的,例如,通过概率关系相信的构建块。

在机器学习中,有概率模型和非概率模型。关于概率的基本概念,例如随机变量和概率分布的信息将有助于对概率模型有一个很好的理解。

从嘈杂或模糊的数据中进行描绘推理是智能系统的一个必要部分。在概率理论中,特别是贝叶斯定理有助于作为一个结合先验知识和经验证据的原则性框架。

概率性ML模型的重要性

概率模型的主要好处之一是,它们提供了一个与预测有关的不确定性的概念。我们可以了解到机器学习模型对其预测的信心如何。例如,如果概率分类器为 "狗 "类分配了0.9的概率,而其位置为0.6,这意味着分类器对图像中的动物是一只狗特别有信心。这些与不确定性和信心相关的概念在涉及到关键的机器学习用途时非常有价值,例如疾病诊断和自动驾驶。此外,概率结果对许多与机器学习有关的方法,例如主动学习,也是值得的。

贝叶斯推理

贝叶斯推理的中心是贝叶斯规则,有时也称为贝叶斯定理。它被用来定义一个假设的概率与以前的知识。它是以条件概率为前提的。

贝叶斯规则

托马斯-贝叶斯(1702-1761)牧师

贝叶斯定理的公式被称为。

P (hypothesis│data)    =     P (data│hypothesis) P (hypothesis) / P (data)
  • 贝叶斯规则指出,如何从数据中对假设进行推理。
  • 学习和预测可以理解为推理的形式。

典型的贝叶斯推理与贝叶斯规则是需要一个机制来直接调节目标后验分布。例如,推理过程是一个单向程序,通过检测经验数据将早期分布规划到后验。在监督学习和强化学习中,我们的最终目标是把后验放到学习任务上。这是用一些对性能的测量来应用的,例如预测误差或预期奖励。

一个正直的后验分布应该有一个小的预测误差或一个大的预期奖励。此外,通过建立大规模的知识库和广泛接受众包平台来收集人类数据,在建立智能系统时需要将外部信息纳入统计建模和推理。

奈何贝叶斯算法

奈何贝叶斯算法是一种监督式学习算法。它是根据贝叶斯定理创建的,用于解决排序问题。它主要用于包括高维训练数据集的文本分类。天真贝叶斯算法是一种简单和最佳操作的分类算法,支持构建快速的机器学习模型,可以创造快速的预测。

天真贝叶斯算法是一种概率性分类器。这意味着它是根据一个对象的概率来预测的。纳伊夫-贝叶斯算法或多或少的流行实例有。

  • 垃圾邮件过滤
  • 感情分析
  • 对文章进行分类

一个狭义的相关模型是逻辑回归。这有时被认为是现代机器学习的 "你好世界"。不要被它的名字所欺骗,因为log reg是一种分类算法,而不是一种回归算法。就像Naive Bayes一样,直到现在,它还是相当有用的,因为log reg比计算机早了很久,这要归功于它的谦虚和多用途的性质。它经常是数据科学家在数据集上尝试的第一件事,以成为手头的分类任务的感觉。

Naïve Bayes模型的类型

有以下三种类型的奈何贝叶斯模型。

  • 高斯模型:高斯模型负责监测特征的正常分布。这意味着,如果分析师采取的是不间断的数值而不是单独的,那么该模型就会认为这些数值是从高斯分布中测试出来的。
  • 多项式。当数据是多项式循环时,它被使用。它主要用于文档分类问题。这意味着一个特定的文件属于那个类别,例如体育、教育和政治等。该分类器使用词的比率作为预测因子。
  • 伯努利(Bernoulli):伯努利分类器的工作与多项式分类器类似。然后,预测变量是自治的布尔变量。例如,如果一个特定的词在一个文件中出现或不出现。这个模型在文档分类任务中也是众所周知的。

纳伊夫贝叶斯模型的用途

Naïve Bayes分类器用于。

  • 用于信用评分。
  • 在医疗数据分类中。
  • 它可以用于实时预测,因为Naïve Bayes分类器是一个敏锐的学习者。
  • 文本内分类,例如垃圾邮件过滤和情绪分析。

贝叶斯分类器的优点和缺点

优点

  • 奈何贝叶斯是一种简单而快速的机器学习算法,可以预见一类数据集的情况。
  • 它可以用于二元分类,也可以用于多类分类。
  • 例如,与其他算法相比,它在多类预测中表现良好。
  • 它是文本分类问题中最广泛的选择。

缺点

  • Naive Bayes认为所有的种类都是独立的或不相干的。因此,它不能学习特征之间的关联。

目标函数

我们可以凝视它的目标函数,以识别一个特定的模型是否是概率性的。我们希望增强一个模型,使其在机器学习中的某项确切任务中表现出色。拥有一个目标函数的目标是根据模型的输出来提供一个值。因此,优化可以通过更多的利用或缩减实际价值来完成。通常情况下,目标是减少机器学习的预测误差。因此,我们描述了所谓的损失函数,例如目标函数和试图在机器学习模型的训练阶段减少损失函数。