了解机器学习算法以及如何实施这些算法
人工智能正在以令人眼花缭乱的速度发展。机器学习几乎被运用于我们日常使用的每一项服务。
机器学习是对创造和发展算法的研究,现在计算机可以学习这些算法。它正在得到普及,并成为健康、教育和商业行业的一个关键工具。
了解机器学习算法的分类
机器学习算法分为四个主要类型。
它们包括
- 强化机器学习
- 有监督的机器学习
- 半监督的机器学习
- 无监督的机器学习
让我们一次看一个算法,以便更好地理解。
强化机器学习
数据科学家采用强化学习来教导算法如何与数据互动。这个系统通过犯错和成功来学习。
算法被训练成根据反馈和奖励来做决定。例如,一个数据科学家设计了一个算法,该算法执行了一项任务,并得到了奖励或惩罚。
这就是强化信号。强化学习的应用包括资源管理、视频游戏和机器人技术。
监督下的机器学习
监督学习将现有的知识应用于新鲜数据,以预测未来事件。该算法是在一个标记的数据集上训练的。
它包含一组输入变量(x)和输出变量(y),确定映射函数。进入算法的新数据会平衡权重,直到算法被适当地拟合。
这确保了算法不会过度或不足地拟合数据。这种学习对企业很重要,因为它可以让他们识别垃圾邮件,并将其与正常的电子邮件放在一个单独的文件夹中。
下面是一些监督学习工作的例子。
- 回归建模
- 合并
- 多类分类
- 二元分类
半监督的机器学习
这种机器学习技术使用少量的标记数据和大量的无标记数据来学习。因此,有监督和无监督的机器学习都是存在的。
无监督学习在将标签送入有监督技术之前预测标签。这种策略提高了学习精度。
无监督学习在以下情况下是有效的。
- 标注数据
- 机器翻译
- 欺诈检测
无监督的机器学习
无监督学习,与监督学习不同,只关注输入。该算法是使用无标签的、非结构化的数据进行教学。
这种技术专注于对未分类数据的系统评估。算法可以自动组织数据并发现隐藏的模式。
无监督学习可以用在以下方面。
- 异常情况检测
- 关联挖掘
- 降低维度
- 聚类
机器学习算法的划分
机器学习算法中的问题分为两种。
-
Regression- 因变量和自变量具有连续关系。因变量可能是数字或类别。 -
Classification是实际世界中最典型的问题陈述。目标变量只有两个值(真/假,0/1)。多项式分类问题中的目标变量有多个类别(苹果、橘子、芒果)。顺序分类中的目标变量是有顺序的(例如,学生的成绩)。
科学家和程序员设计了程序或算法来检查数据和预测结果。基于树形的算法不是线性的。
当特征和目标变量不是线性的,就会采用决策树、随机森林和梯度提升等树状方法。
算法的实施
目前,有各种机器学习算法,而且由于不断的研究,这个数字只会越来越大。
作为一名数据科学家,你最初学习的算法是线性回归和逻辑回归,然后是更复杂的算法。
这里我们将看看一些机器学习算法。
- 线性回归
- K-最近的邻居
线性回归
线性回归是一种突出的机器学习方法。它是一种统计预测方法。线性回归可以预测销售额、工资、年龄、产品价格等。
一个因变量(y) ,与一个或多个自变量(y) ,具有线性联系。
由于线性回归显示的是一种线性联系,它可以发现因变量是如何与自变量发生变化的。它显示了一条连接变量的直线。

线性回归在数学上被表述为。
y= a0+a1x+ ε
Y 表示自变量, 表示自变量, 表示直线的截距, 是线性回归的系数, 是随机误差的缩写。X a0 a1 ε
线性回归算法分为两种。
-
Simple Linear Regression使用单个自变量来预测数字因变量的值。 -
Many Linear Regression使用 ,预测一个数字因变量的值。multiple independent variables
线性回归线
该图描述了两个变量之间的关联。因此,出现了一条回归线。
Positive linear connection- 因变量的轴线随着自变量X的上升而增加。

Negative Linear Relationship-Y在X上升时下降,表明是负线性关系。

选择最佳拟合线
在线性回归中,最佳拟合线具有最小的预期值和实际值。的理想线。
利用成本函数,我们可以找到a0 和a1 的最佳值。
成本函数
-
成本函数可用于确定映射函数的准确性。这些是假设函数。
-
它使回归系数最大化。它评估的是线性回归。
-
成本函数估计最佳拟合线的系数。
使用线性回归,你采用MSE成本函数(预期值和实际值的平均值)。它是拼出来的。
上述线性方程的均方误差(MSE)可按以下方式确定。

其中N 表示观察值的总数,Yi 是实际值,(a1xi+a0) 预测值。
K-近邻的实现
K-NN将数据分为训练样本和测试样本。k 最近的方法在分类问题上实现如下。
-
k是特征空间中的训练实例的数量。 -
计算未知数据点与所有训练实例的距离。
-
在训练数据中找到与未知数据点最接近的
k观测值。 -
计算未知数据点与训练集的距离。
-
最接近的邻居是训练数据的最小值。
训练点和样本点之间较小的距离在KNN回归中表示为最近的邻居。最后,它使用整个总和的平均值来预测结果。
如何挑选K值
正因为如此,所以要挑选适当的k 值。
-
为了提高性能,最好使用一个大的
k值。 -
如果在特征空间中存在精细的结构,通过选择K值较小,将有可能捕捉到这些结构。
例如,如果k 太小,一个在训练集上运行良好的算法在未知的测试数据上可能表现不佳,导致过拟合。
距离度量以下方法可用于计算距离。
- 欧几里得距离

- 曼哈顿距离

- 加权距离

如何选择权重
加权距离法可用于分类和回归问题。
分配权重表明每个邻居的贡献的相对重要性,最近的邻居得到的权重越高,表明总体贡献越大。
加权选项包括。
- wi = 1/ k
- wi ∼ 1 - ||xi - xo ||
- wi ∼ k - rank ||xi - xo ||
改进
-
第一种策略表明,给最接近的邻居以不同的权重可能会提高预测效果。重要的性状有较高的权重,而不太重要的属性得到较低的权重。
-
两种传统技术有助于加快近邻搜索的速度。
比如说。

我们在D空间有N个位置和一个未标记的样本q,我们需要识别与q最接近的点。对于大的N和D,KNN方法是不可行的。
有两种常规算法可以加快搜索速度。
Bucketing technique:Bucketing技术将空间划分为相同的单元,每个单元包含一个数据项的列表。
单元被评估以增加与q的距离,并计算每个单元的内部数据点与q之间的距离。
当从q到单元格的距离超过之前访问过的最近的点时,搜索就结束了。
k-d trees:k-d树是一棵高维的二进制搜索树。k-d树的每个内部节点都有一个正交的超矩形和超平面。
通过使用超平面,你可以将超矩形划分为两半。分割一直持续到超矩形中的数据点的数量低于n。
结论
机器学习是数据科学的一个较新的组成部分。现在是公司老板充分使用AI自动化和机器学习的时候了。
人类和机器人很快就会一起工作,实现更大的技术奇迹。选择最好的机器学习方法。人类和机器之间的合作将改善结果。