在机器学习中,确定性和随机性的方法根据其有用性在不同的领域被利用。确定性过程认为,已知的平均速率没有随机偏差,适用于巨大的人群。另一方面,随机过程定义了一个反映潜在样本途径的有时间顺序的随机变量的集合。在这篇文章中,我们将讨论它们的功能和应用之间的关键区别。本文要讨论的主要内容概述如下。
目录
- 确定性和随机性过程建模
- 什么时候可以同时使用它们?
- 这些方法是如何工作的?
- 随机性和确定性算法的不同形式
- 确定性和随机性的优点和缺点
- 确定性和随机性算法的应用
让我们先来看看确定性和随机性过程的高层概述。
确定性和随机性过程建模
确定性建模对一组给定的输入产生一致的结果,无论模型被重新计算多少次。在这种情况下,数学特征是已知的。它们没有一个是随机的,每个问题只有一组指定的值以及一个答案或解决方案。确定性模型中的未知成分是模型的外部因素。它处理的是确定的结果,而不是随机的结果,并且不允许有误差。
与此相反,随机性模型在本质上是不可预测的,未知成分被整合到模型中。该模型产生了大量的答案、估计和结果,很像在一个困难的数学问题上增加变量,看它们如何影响解决方案。然后在不同的环境中进行多次相同的程序。
你是否在寻找一个完整的数据科学中使用的Python库。查看这里.
什么时候可以同时使用它们?
确定性模型的应用是通过已知的状态和事件之间的关系精确地确定结果,其中不存在随机性或不确定性。
例如,如果我们知道食用固定数量的糖'y'会使人体内的脂肪增加'2x'倍。那么,当'x'的值已知时,'y'总是可以被准确地确定。
同样,当变量之间的关系未知或不确定时,可以使用随机模型,因为它依赖于对事件概率的可能性估计。
例如,保险业主要依靠随机模型来预测公司的资产负债表在未来会如何出现。
这些方法如何运作?
由于确定性的模型显示了结果和影响结果的因素之间的关系。对于这种模型,变量之间的关系应该是已知的或确定的。
让我们考虑建立一个可以帮助运动员进行100米短跑的机器学习者,100米短跑中最重要的因素是时间。该模型的目标将是使运动员的时间最小化。影响时间的两个最重要因素是速度和距离。
每个运动员的距离都是一样的,对每个人来说都是不变的,唯一不同的是速度。但不同的速度是可以控制的,因为影响速度的因素是已知的,如身体的位置、飞行时间等。由于我们知道时间取决于速度和距离,这使得这个问题具有确定性。
机器学习算法的随机性在用于解决分类和回归预测模型问题的复杂和非线性方法中表现得最为明显。这些方法在从训练数据中建立模型的过程中采用了随机性,导致每次对相同的数据执行相同的算法时,都会有不同的模型拟合。
因此,当在保留的测试数据集上进行测试时,稍加修改的模型会有不同的表现。由于这种随机行为,模型的性能必须使用汇总统计来描述,这些统计表示模型的平均值或预测性能,而不是模型在任何单一训练环节的性能。
让我们考虑一个掷骰子的问题。你正在赌场里掷骰子。如果你掷出了6或1,你就会赢得现金奖。最初,一个包括所有掷骰子结果可能性的样本空间将被生成。任何数字被掷出的概率都被计算出来,即 "0.17"。但是我们只对两个数字感兴趣,'6'和'1'。所以最后的概率是0.33。这就是随机模型的工作方式。
让我们来看看线性回归模型如何在不同的情况下既能作为确定性模型又能作为随机性模型工作。
确定性模型定义了变量之间的精确联系。在确定性的情况下,线性回归有三个组成部分:因变量 "y"、自变量 "x "和截距 "c"。在预测给定的x的y时,没有错误的余地。下面是一个方程,作为复制上述解释的例子。
F=95C+32
上述方程会有一个类似这样的图形,所有数据点都在一条直线上。
一个随机模型,考虑到了随机误差。有一个决定性的成分,也有一个随机误差成分。在这种模式下,y和x之间的概率联系是假设的。下面是一个方程,作为复制上述解释的例子。
y= 1.5x+误差
在上图中,我们可以看到,由于线性回归方程中的误差成分,数据中存在随机性。
随机性和确定性算法的不同形式
主成分分析(PCA)
PCA是一种确定性的方法,因为没有参数需要初始化。PCA寻找通过中心点的线,该线在n维空间中给定的一组点之间的平方距离之和最小。识别点在该线上的投影尽可能大的那条线也是一样的(以平方长度之和衡量)。
然后,在与第一条线正交的限制下,它找到通过中心点的线,其与各点的距离平方之和最小。第三条原则分量,第四条,以此类推。因为所有这些程序都是简单的几何程序,所以主要成分是确定性的数据函数。
加权最近的邻居
加权近邻法也可以称为基本KNN是一种确定性的方法。这种技术采用了一种被称为 "权重函数 "的统计学方法。 权重是通过取距离的倒数来确定的。因为每个数据点和查询点之间的距离在每次迭代中都是一样的,所以权重是一个确定性的项。
泊松过程
泊松法是一个随机过程,在不同的时间显示随机的点或发生的数量。在一个过程中,在零和特定时期之间的点的数量被描述为一个随时间变化的泊松随机变量。这个过程的索引集是由非负整数组成的,而状态空间是由自然数组成的。这种方法被称为泊松计数过程,因为它可以被认为是一种计数操作。
伯努利过程
伯努利过程是一组随机分布的随机变量,每个变量都有1或0的机会。这个过程类似于不断地抛掷硬币,获胜的概率为p,数值为1,而获得尾数的可能性为0。由于结果是概率性的,这就是这个方法是一个随机过程的原因。
随机漫步
简单的随机漫步是一个离散时间的随机过程,使用整数作为状态空间,基于伯努利过程,每个伯努利变量要么取正值要么取负值。
确定型和随机型的优点和缺点
让我们来看看这两种过程的优点和缺点。
优点
- 确定性模型的优点是简单。
- 确定性的更容易掌握,因此可能更适合某些情况。
- 随机模型提供了各种可能的结果以及每种结果的相对可能性。
- 随机模型使用最常见的方法来获得结果。
缺点
- 在确定性方法中,没有累积概率,由于这个原因,低储备的案例是过于乐观的。
- 在随机方法中,模型更加复杂,也称为黑箱方法。
- 偏见 可能隐藏在随机模型中,它关注的是极端情况。
确定性和随机性算法的应用
- 确定性模型被用于洪水风险分析中。
- 图灵机中使用的确定性模型是一个能够列举任何可接受的字母串的任意子集的机器(自动机);这些字符串是一个可递归列举集的一部分。图灵机有一个无限长的磁带,可以在上面执行读写操作。
- 随机投资模型旨在估计不同时期的价格变化、资产回报率(ROA)和资产类别(如债券和股票)。它使用蒙特卡洛模拟,可根据单个股票收益的概率分布来模拟投资组合的表现。
- 随机建模影响着营销和观众口味和偏好的转变,以及特定电影客串的招揽和科学的吸引力(即开幕周末、口碑、被调查群体中的首要知识、明星名字的认可,以及社会媒体宣传和广告的其他要素)。
结论
确定性方法有一个简单易懂的结构,只有在变量之间的关系确定后才能应用;另一方面,随机性方法有一个复杂难懂的结构,它的工作原理是概率的可能性。通过这篇文章,我们已经了解了机器学习中确定性和随机性方法之间的区别。
参考文献
The postDeterministic vs Stochastic Machine Learningappeared first onAnalytics India Magazine.