Scikit Learn KMeans简介

565 阅读6分钟

Scikit Learn KMeans

Scikit Learn KMeans简介

下面的文章提供了一个Scikit Learn KMeans的概要。Kmeans属于机器学习中的无监督学习算法;通常Kmeans算法用于按照我们的要求对数据集进行分割,我们可以说每个数据点只属于一个组。这意味着我们可以说它是未标记的数据或没有定义的类别。通常情况下,这种算法的主要目标是在数据中找到不同的组。

主要启示

  • 它的实现非常容易和简单。
  • kmeans算法依赖于初始值以获得更准确的结果。
  • 如果我们有一个巨大的数据集,我们可以根据我们的要求快速扩展。
  • 我们也可以手动实现Kmeans算法。

Scikit Learn KMeans的概述

KMeans是一种单独的实现,当你有未标记的信息(即没有特征分类或集合的信息)时,就会利用它。这种计算的目的是追踪信息中的群组,群组的数量由变量决定。

K-暗示串联是一种无援助的实现,当你有未标记的信息(即没有特征性分类或聚集的信息)时,就会利用它。该计算的目的是追踪信息中的群组,群组的数量由变量K来决定。信息的重点是鉴于组件的相似性而进行分组。K组的中心点可以用来标记新的信息。准备信息的标记(每个信息点都被分配到一个单独的组中)

与其在浏览信息之前就对群组进行定性,扎堆允许你找到并剖析那些自然形成的群组。下面的 "Picking K "区域描绘了群组的数量是如何在空气中形成的。聚集的每一个中心点都是描述后续聚集的成分值的一个组合。检查中心点,包括负载,可以利用它来破译每个群组主观上解决什么样的聚集。

Scikit Learn聚类KMeans如何工作?

让我们看看Kmeans中的聚类是如何工作的。

1.加载数据

首先,我们需要加载我们想要的数据,所以我们可以在不同的python库(如pandas)的帮助下轻松地读取和查看所需的数据。在下一步,我们需要对数据进行预处理。在将信息传入任何模型之前,必须确保它是完美的。在对模型的贡献是垃圾的时候,结果也同样是垃圾的。

在第三步,我们可以根据我们的要求删除不必要的列。这些部分是每一个旋律的元素,它们的名称和专家都被给出。了解这些信息纲要以检查每个组件的潜在质量是至关重要的。这是因为它们影响了模型的组装。比较明智的做法是拒绝那些没有检查出有关他们的团体元素的片段。在这一步,我们可以按照我们的要求来获取数据。

2.现在应用转换

元素范围的区别使得一个具有巨大质量的组件具有较高的权重,因此,对计算的影响也较大。我们需要让模型以类似的方式处理每一个亮点,而不作任何倾斜。这就是要做的事;我们要使信息标准化。在下一步,我们需要根据我们的要求选择数字集群,以使用惯性系数或剪影系数方法。在最后一步,我们需要应用KMeans聚类方法,或者我们可以说是KMeans函数。

Scikit Learn KMeans数据

数据命名是指将粗略的数据,至少加入一个重要的数据的循环,类似于一张照片是否显示了一个人的本质。正如你所设想的那样,数据标记是一项繁琐的工作,所以大多数数据显示为无标记。幸运的是,已经形成了一些可衡量的分束程序,将数据分束成给定的比较质量。一旦分组,数据就可以用来获得重要的经验和训练管理的人工智能计算。

例子

代码

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from matplotlib import pyplot as plt
import numpy as np
import seaborn as sns
sns.set_style("darkgrid")
X, y = make_blobs(n_samples=400, centers=4, cluster_std = 1.01)
sns.scatterplot(x=X[:,0], y=X[:,1], c =["red"])

解释

  • 执行后,我们得到以下结果,如下面的截图所示。

输出

Scikit Learn Kmeans 1

现在为KMeans添加下面的代码。

代码:

samplemodel = KMeans(n_clusters=4)
samplemodel.fit(X)
print(samplemodel.cluster_centers_)

输出

Scikit Learn Kmeans 2

Scikit Learn KMeans参数(聚类)

下面是scikit learn Kmeans的参数:

  • number_of_clustersint, default=8: 这只是用来显示聚类的数量以及要生成多少个中心点。
  • number_of _initint, default=10它用于确定我们需要用不同的中心点值运行多少次Kmeans算法。
  • maximum_itr: int, default=300用于显示单次执行Kmeans算法的最大迭代次数。
  • tol: float, default=1e-4在连续迭代的执行过程中,我们需要定义相对公差。
  • verbose我们可以在需要的时候应用verbosity模式。
  • random_case在这个参数的帮助下,我们可以定义随机的世代数。
  • 复制值当我们决定用数字预先计算距离时应该是准确的,如果复制值为真,那么我们不能修改原始内容,如果复制值为假,那么我们可以按照我们的要求修改内容。

常见问题

以下是提到的常见问题:

Q1.什么是kmeans中的聚类?

答案:Kmeans中的聚类

基本上,聚类是用来从数据集中找到中心点的,在Kmeans算法中,我们需要从数据集中找出最近的中心点值,这样我们就可以挑选出我们想要的随机值。

Q2.Kmeans的主要优势是什么?

答案:Kmeans

我们知道,Kmeans只不过是一种聚类算法,用来寻找数据组以进行数据的预测。

Q3.什么是Kmeans分类算法?

答:Kmeans是一种分类算法

基本上,Kmeans属于无监督类别,换句话说,我们可以说,数据集没有标记,信息是利用它们的内部结构来分组的。

总结

在这篇文章中,我们试图探索Scikit Learn Kmeans。我们看到了Scikit Learn Kmeans的基本思想,以及这些Scikit Learn Kmeans的用途和特点是什么。文章的另一个重点是我们如何看到Scikit Learn Kmeans的基本实现。