了解机器学习算法以及如何实施这些算法

96 阅读8分钟

了解机器学习算法以及如何实施这些算法

人工智能正在以令人眼花缭乱的速度发展。机器学习几乎被运用于我们日常使用的每一项服务。

机器学习是对创造和发展算法的研究,现在计算机可以学习这些算法。它正在得到普及,并成为健康、教育和商业行业的一个关键工具。

了解机器学习算法的分类

机器学习算法分为四个主要类型。

它们包括

  1. 强化机器学习
  2. 有监督的机器学习
  3. 半监督的机器学习
  4. 无监督的机器学习

让我们一次看一个算法,以便更好地理解。

强化机器学习

数据科学家采用强化学习来教导算法如何与数据互动。这个系统通过犯错和成功来学习。

算法被训练成根据反馈和奖励来做决定。例如,一个数据科学家设计了一个算法,该算法执行了一项任务,并得到了奖励或惩罚。

这就是强化信号。强化学习的应用包括资源管理、视频游戏和机器人技术。

监督下的机器学习

监督学习将现有的知识应用于新鲜数据,以预测未来事件。该算法是在一个标记的数据集上训练的。

它包含一组输入变量(x)和输出变量(y),确定映射函数。进入算法的新数据会平衡权重,直到算法被适当地拟合。

这确保了算法不会过度或不足地拟合数据。这种学习对企业很重要,因为它可以让他们识别垃圾邮件,并将其与正常的电子邮件放在一个单独的文件夹中。

下面是一些监督学习工作的例子。

  • 回归建模
  • 合并
  • 多类分类
  • 二元分类

半监督的机器学习

这种机器学习技术使用少量的标记数据和大量的无标记数据来学习。因此,有监督和无监督的机器学习都是存在的。

无监督学习在将标签送入有监督技术之前预测标签。这种策略提高了学习精度。

无监督学习在以下情况下是有效的。

  • 标注数据
  • 机器翻译
  • 欺诈检测

无监督的机器学习

无监督学习,与监督学习不同,只关注输入。该算法是使用无标签的、非结构化的数据进行教学。

这种技术专注于对未分类数据的系统评估。算法可以自动组织数据并发现隐藏的模式。

无监督学习可以用在以下方面。

  • 异常情况检测
  • 关联挖掘
  • 降低维度
  • 聚类

机器学习算法的划分

机器学习算法中的问题分为两种。

  1. Regression - 因变量和自变量具有连续关系。因变量可能是数字或类别。

  2. Classification 是实际世界中最典型的问题陈述。目标变量只有两个值(真/假,0/1)。多项式分类问题中的目标变量有多个类别(苹果、橘子、芒果)。顺序分类中的目标变量是有顺序的(例如,学生的成绩)。

科学家和程序员设计了程序或算法来检查数据和预测结果。基于树形的算法不是线性的。

当特征和目标变量不是线性的,就会采用决策树、随机森林和梯度提升等树状方法。

算法的实施

目前,有各种机器学习算法,而且由于不断的研究,这个数字只会越来越大。

作为一名数据科学家,你最初学习的算法是线性回归和逻辑回归,然后是更复杂的算法。

这里我们将看看一些机器学习算法。

  • 线性回归
  • K-最近的邻居

线性回归

线性回归是一种突出的机器学习方法。它是一种统计预测方法。线性回归可以预测销售额、工资、年龄、产品价格等。

一个因变量(y) ,与一个或多个自变量(y) ,具有线性联系。

由于线性回归显示的是一种线性联系,它可以发现因变量是如何与自变量发生变化的。它显示了一条连接变量的直线。

Linear regression

线性回归在数学上被表述为。

y= a0+a1x+ ε

Y 表示自变量, 表示自变量, 表示直线的截距, 是线性回归的系数, 是随机误差的缩写。X a0 a1 ε

线性回归算法分为两种。

  • Simple Linear Regression 使用单个自变量来预测数字因变量的值。

  • Many Linear Regression 使用 ,预测一个数字因变量的值。multiple independent variables

线性回归线

该图描述了两个变量之间的关联。因此,出现了一条回归线。

  • Positive linear connection- 因变量的轴线随着自变量X的上升而增加。

Positive linear connection

  • Negative Linear Relationship -Y在X上升时下降,表明是负线性关系。

Negative Linear Relationship

选择最佳拟合线

在线性回归中,最佳拟合线具有最小的预期值和实际值。的理想线。

利用成本函数,我们可以找到a0a1 的最佳值。

成本函数

  • 成本函数可用于确定映射函数的准确性。这些是假设函数。

  • 它使回归系数最大化。它评估的是线性回归。

  • 成本函数估计最佳拟合线的系数。

使用线性回归,你采用MSE成本函数(预期值和实际值的平均值)。它是拼出来的。

上述线性方程的均方误差(MSE)可按以下方式确定。

MSE Formula

其中N 表示观察值的总数,Yi 是实际值,(a1xi+a0) 预测值。

K-近邻的实现

K-NN将数据分为训练样本和测试样本。k 最近的方法在分类问题上实现如下。

  • k 是特征空间中的训练实例的数量。

  • 计算未知数据点与所有训练实例的距离。

  • 在训练数据中找到与未知数据点最接近的k 观测值。

  • 计算未知数据点与训练集的距离。

  • 最接近的邻居是训练数据的最小值。

训练点和样本点之间较小的距离在KNN回归中表示为最近的邻居。最后,它使用整个总和的平均值来预测结果。

如何挑选K值

正因为如此,所以要挑选适当的k 值。

  • 为了提高性能,最好使用一个大的k 值。

  • 如果在特征空间中存在精细的结构,通过选择K值较小,将有可能捕捉到这些结构。

例如,如果k 太小,一个在训练集上运行良好的算法在未知的测试数据上可能表现不佳,导致过拟合。

距离度量以下方法可用于计算距离。

  1. 欧几里得距离

Euclidian distance formula

  1. 曼哈顿距离

Manhattan distance formula

  1. 加权距离

Weighted distance formula

如何选择权重

加权距离法可用于分类和回归问题。

分配权重表明每个邻居的贡献的相对重要性,最近的邻居得到的权重越高,表明总体贡献越大。

加权选项包括。

  • wi = 1/ k
  • wi ∼ 1 - ||xi - xo ||
  • wi ∼ k - rank ||xi - xo ||

改进

  1. 第一种策略表明,给最接近的邻居以不同的权重可能会提高预测效果。重要的性状有较高的权重,而不太重要的属性得到较低的权重。

  2. 两种传统技术有助于加快近邻搜索的速度。

比如说。

Illustration of two traditional techniques

我们在D空间有N个位置和一个未标记的样本q,我们需要识别与q最接近的点。对于大的N和D,KNN方法是不可行的。

有两种常规算法可以加快搜索速度。

  1. Bucketing technique: Bucketing技术将空间划分为相同的单元,每个单元包含一个数据项的列表。

单元被评估以增加与q的距离,并计算每个单元的内部数据点与q之间的距离。

当从q到单元格的距离超过之前访问过的最近的点时,搜索就结束了。

  1. k-d trees:k-d树是一棵高维的二进制搜索树。k-d树的每个内部节点都有一个正交的超矩形和超平面。

通过使用超平面,你可以将超矩形划分为两半。分割一直持续到超矩形中的数据点的数量低于n。

结论

机器学习是数据科学的一个较新的组成部分。现在是公司老板充分使用AI自动化和机器学习的时候了。

人类和机器人很快就会一起工作,实现更大的技术奇迹。选择最好的机器学习方法。人类和机器之间的合作将改善结果。