电信客户价值分析&K-means算法

49 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第2天,点击查看活动详情

1 业务问题分析

客户价值分析实际上是一个对客户进行分群的问题。为了指定更有效的营销策略,就需要从客户的需求出发,了解客户特征,为不同的客户提供不同的产品和服务。这样既可以提高客户体验感,减少客户流失,保留优质客户以及吸引新客户,同时也能降低降低服务成本,提高业务收入,提高运营商的竞争力。

对于电信运营商来说,根据以往的运营经验,可以大概知道客户类型,但是随着数据量越来越大,仅凭人工对海量数据进行分析很明显不现实,同时由于客户数量很多,且消费行为复杂,人工很难事先对客户打标签,得到训练数据。所以必须使用数据挖掘技术对数据做更精准的分析,并得到定量的分析结果。数据挖掘技术可以从海量数据中发现有用的信息和知识,对客户进行细分,根据细分得到客户类别,为其推出不同提供服务,为客户提供个性化服务,使其营销政策更具针对性,提高电信企业利润。K-means聚类方法是数据挖掘技术中最为常用的方法,非常适合用于进行电信客户细分。

在对数据进行聚类之前,可以将客户大致分为中高端客户、中端用户、离网趋势用户等。但这是经验而言,最终结果需要看模型的运行结果,不能主观臆断。通过聚类,将客户合理地分为多个类别,在聚类完成后,可以继续对客户信息进行统计分析,从而制定出合理的营销方案。

2 K-means算法

数据挖掘是从大数据中挖掘出隐藏的、未知的和有意义的规则和模式的业务流程,它是用来支持以客户为中心的企业的必要技术。大数据背景下,电信运营商已经认识到客户是业务的中心,客户数据是它们的重要资产。聚类分析是在未知划分类别的前提下,依据数据的相似度对其进行分类的方法,它是一种无监督学习算法。常用的聚类算法由K-means算法、K-近邻 (KNN) 算法和模糊C均值聚类 (FCM) 算法等,这些算法广泛的应用于模式识别、图像分析和机器学习等领域。K-means算法是最受欢迎的聚类算法之一, 它选择距离为相似度的评价标准,通过最小化误差函数便可将数据加以分类。K-means 算法尝试找出平方误差函数值最小的k个划分。算法使得各聚类本身尽可能紧凑,而各聚类之间尽可能的分开。当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。

采用K-Means 聚类模型进行客户分群,主要因为 K-means 算法具有以下优点:能够很好的解决给出数值型属性的数据对象的聚类问题,经常以局部最优结束;对处理大数据集,该算法是相对可伸缩的和高效率的;对输入数据顺序的敏感度一般;虽然对处理噪声数据的能力不高,由于电信提供客户的数据比较完整,可以通过数据预处理来弥补;该算法结果比较容易理解,建模速度也较快。

下面简要介绍K-means算法原理:

(1) 确定聚类的类数K,随机选出 K 个点并以其为初始聚类中心。

(2) 随后计算得出各样本至聚类中心距离的大小,并且把样本划分到距离最近聚类中心所属类。

(3) 对划分完全后的新类重新进行计算得出新的聚类中心,假如两次的聚类中心并没有发生改变,那么久可以确定样本调整结束,此时相应的误差平方和函数已达到最小,聚类准则函数已经收敛;否则,若初始聚类中心发生变化,则需要继续调整所有样本来确定新的聚类中心,并进入下一次的迭代过程。