了解机器学习算法以及如何实施这些算法

人工智能正在以令人眼花缭乱的速度发展。机器学习几乎被运用于我们日常使用的每一项服务。

机器学习是对创造和发展算法的研究，现在计算机可以学习这些算法。它正在得到普及，并成为健康、教育和商业行业的一个关键工具。

了解机器学习算法的分类

机器学习算法分为四个主要类型。

它们包括

强化机器学习
有监督的机器学习
半监督的机器学习
无监督的机器学习

让我们一次看一个算法，以便更好地理解。

强化机器学习

数据科学家采用强化学习来教导算法如何与数据互动。这个系统通过犯错和成功来学习。

算法被训练成根据反馈和奖励来做决定。例如，一个数据科学家设计了一个算法，该算法执行了一项任务，并得到了奖励或惩罚。

这就是强化信号。强化学习的应用包括资源管理、视频游戏和机器人技术。

监督下的机器学习

监督学习将现有的知识应用于新鲜数据，以预测未来事件。该算法是在一个标记的数据集上训练的。

它包含一组输入变量（x）和输出变量（y），确定映射函数。进入算法的新数据会平衡权重，直到算法被适当地拟合。

这确保了算法不会过度或不足地拟合数据。这种学习对企业很重要，因为它可以让他们识别垃圾邮件，并将其与正常的电子邮件放在一个单独的文件夹中。

下面是一些监督学习工作的例子。

回归建模
合并
多类分类
二元分类

半监督的机器学习

这种机器学习技术使用少量的标记数据和大量的无标记数据来学习。因此，有监督和无监督的机器学习都是存在的。

无监督学习在将标签送入有监督技术之前预测标签。这种策略提高了学习精度。

无监督学习在以下情况下是有效的。

标注数据
机器翻译
欺诈检测

无监督的机器学习

无监督学习，与监督学习不同，只关注输入。该算法是使用无标签的、非结构化的数据进行教学。

这种技术专注于对未分类数据的系统评估。算法可以自动组织数据并发现隐藏的模式。

无监督学习可以用在以下方面。

异常情况检测
关联挖掘
降低维度
聚类

机器学习算法的划分

机器学习算法中的问题分为两种。

Regression - 因变量和自变量具有连续关系。因变量可能是数字或类别。
Classification 是实际世界中最典型的问题陈述。目标变量只有两个值（真/假，0/1）。多项式分类问题中的目标变量有多个类别（苹果、橘子、芒果）。顺序分类中的目标变量是有顺序的（例如，学生的成绩）。

科学家和程序员设计了程序或算法来检查数据和预测结果。基于树形的算法不是线性的。

当特征和目标变量不是线性的，就会采用决策树、随机森林和梯度提升等树状方法。

算法的实施

目前，有各种机器学习算法，而且由于不断的研究，这个数字只会越来越大。

作为一名数据科学家，你最初学习的算法是线性回归和逻辑回归，然后是更复杂的算法。

这里我们将看看一些机器学习算法。

线性回归
K-最近的邻居

线性回归

线性回归是一种突出的机器学习方法。它是一种统计预测方法。线性回归可以预测销售额、工资、年龄、产品价格等。

一个因变量(y) ，与一个或多个自变量(y) ，具有线性联系。

由于线性回归显示的是一种线性联系，它可以发现因变量是如何与自变量发生变化的。它显示了一条连接变量的直线。

Linear regression

线性回归在数学上被表述为。

y= a0+a1x+ ε

Y 表示自变量，表示自变量，表示直线的截距，是线性回归的系数，是随机误差的缩写。X a0 a1 ε

线性回归算法分为两种。

Simple Linear Regression 使用单个自变量来预测数字因变量的值。
Many Linear Regression 使用，预测一个数字因变量的值。multiple independent variables

线性回归线

该图描述了两个变量之间的关联。因此，出现了一条回归线。

Positive linear connection- 因变量的轴线随着自变量X的上升而增加。

Positive linear connection

Negative Linear Relationship -Y在X上升时下降，表明是负线性关系。

Negative Linear Relationship

选择最佳拟合线

在线性回归中，最佳拟合线具有最小的预期值和实际值。的理想线。

利用成本函数，我们可以找到a0 和a1 的最佳值。

成本函数

成本函数可用于确定映射函数的准确性。这些是假设函数。
它使回归系数最大化。它评估的是线性回归。
成本函数估计最佳拟合线的系数。

使用线性回归，你采用MSE成本函数（预期值和实际值的平均值）。它是拼出来的。

上述线性方程的均方误差（MSE）可按以下方式确定。

MSE Formula

其中N 表示观察值的总数，Yi 是实际值，(a1xi+a0) 预测值。

K-近邻的实现

K-NN将数据分为训练样本和测试样本。k 最近的方法在分类问题上实现如下。

k 是特征空间中的训练实例的数量。
计算未知数据点与所有训练实例的距离。
在训练数据中找到与未知数据点最接近的k 观测值。
计算未知数据点与训练集的距离。
最接近的邻居是训练数据的最小值。

训练点和样本点之间较小的距离在KNN回归中表示为最近的邻居。最后，它使用整个总和的平均值来预测结果。

如何挑选K值

正因为如此，所以要挑选适当的k 值。

为了提高性能，最好使用一个大的k 值。
如果在特征空间中存在精细的结构，通过选择K值较小，将有可能捕捉到这些结构。

例如，如果k 太小，一个在训练集上运行良好的算法在未知的测试数据上可能表现不佳，导致过拟合。

距离度量以下方法可用于计算距离。

欧几里得距离

Euclidian distance formula

曼哈顿距离

Manhattan distance formula

加权距离

Weighted distance formula

如何选择权重

加权距离法可用于分类和回归问题。

分配权重表明每个邻居的贡献的相对重要性，最近的邻居得到的权重越高，表明总体贡献越大。

加权选项包括。

wi = 1/ k
wi ∼ 1 - ||xi - xo ||
wi ∼ k - rank ||xi - xo ||

改进

第一种策略表明，给最接近的邻居以不同的权重可能会提高预测效果。重要的性状有较高的权重，而不太重要的属性得到较低的权重。
两种传统技术有助于加快近邻搜索的速度。

比如说。

Illustration of two traditional techniques

我们在D空间有N个位置和一个未标记的样本q，我们需要识别与q最接近的点。对于大的N和D，KNN方法是不可行的。

有两种常规算法可以加快搜索速度。

Bucketing technique: Bucketing技术将空间划分为相同的单元，每个单元包含一个数据项的列表。

单元被评估以增加与q的距离，并计算每个单元的内部数据点与q之间的距离。

当从q到单元格的距离超过之前访问过的最近的点时，搜索就结束了。

k-d trees:k-d树是一棵高维的二进制搜索树。k-d树的每个内部节点都有一个正交的超矩形和超平面。

通过使用超平面，你可以将超矩形划分为两半。分割一直持续到超矩形中的数据点的数量低于n。

结论

机器学习是数据科学的一个较新的组成部分。现在是公司老板充分使用AI自动化和机器学习的时候了。

人类和机器人很快就会一起工作，实现更大的技术奇迹。选择最好的机器学习方法。人类和机器之间的合作将改善结果。