初探机器学习

448 阅读4分钟

这是我参与11月更文挑战的第4天,活动详情查看:2021最后一次更文挑战

什么是机器学习?

机器学习就是让机器能够具备类似人的学习能力,并通过统计学、概率论和算法知识对数据进行分析,在特定场景下做出符合预期的行为。

在机器学习中,数据是最重要的,需要使用大量的数据来训练机器,让机器通过数据来做出判断。

当人类认识一样事物时,往往首先要将事物的特点与事物本身联系起来,机器也是如此。比如要让机器来认识大象,首先要告诉机器大象的特点,大象的特点有长鼻子、大耳朵、大体型,这些特征在机器学习中会用一个个数值表示,这样的数值就称为特征量,把这些数值组合在一起,如(100, 8, 70),就叫做特征向量

数据分析与数据挖掘的区别

我们可以对数据进行分析,或者是挖掘,这两者的区别如下。

方向数据分析数据挖掘
方法使用统计学知识得出结果使用统计学+机器学习得出结果
偏好业务技术
实现运用 Excel 实现数值计算及可视化使用编程方式,运用机器学习技术实现数值计算及可视化
结果呈现数据使用数据来预测

数据分析与数据挖掘的界限正变得越来越模糊,数据分析师也逐渐开始使用机器学习等技术来处理更大的数据,使数据实现更大的价值。

机器学习的流程

机器学习的流程为:数据源 -> 数据预处理 -> 特征工程 -> 数据建模 -> 数据验证。

数据源

用户在使用软件时会产生一系列的行为,如点击、评论、停留等,前端将这些行为数据发送给服务器,服务器再将这些数据保存到数据库或文件服务器,常用的有 MySQL、HBase、Hive、HDFS 等。之后便可以从这些数据源中获取数据,再进行数据预处理、分析、建模、验证。

数据预处理

有了数据源后,接下来就要进行数据预处理,也就是要清洗出需要的数据。对于一些脏数据,就要进行相应的处理。常见类型的脏数据及处理方法如下表。

脏数据处理方法
id通常可舍弃
缺失值舍弃或填充,视业务情况而定
异常值如非法的年龄,可赋予特殊值,视业务情况而定

特征工程

所谓的特征工程也就是统计分析阶段,在拿到了干净的数据之后,便可以使用统计学对其分析,然后将这些数据进行可视化展示,之后就可用数学方法对其进行建模。

数据建模

假设统计分析之后的数据只有两类,一类数据用 x 表示,一类数据用 y 表示,可以找到一个函数 f(x),对于任意的 x,都有 y = f(x)。这样的一个过程就是数据建模。对于将来的每一个 x 值,都可以使用固定的 f(x) 来得到 y ,这就是简单的数据预测。

数据验证

最后一个阶段就是数据验证,也就是使用测试数据来验证模型的准确性。

分析模型

数据分析有一套标准分析模型,模型可以帮助我们更好的提取数据价值。

LRFMC 是广泛使用的分析模型,分别代表了一种数据分析指标。

  • L。关系长度。用户产生直到数据开始使用的时间间隔。
  • R。消费的时间间隔。用户最后一次使用服务直到数据开始使用的时间间隔。
  • F。消费频率。在一段时间范围内用户使用服务的次数。
  • M。消费时长。用户使用服务的总时长。
  • C。折扣系数的平均值。用户消费的平均折扣率。

清洗了数据,就可以将数据按这五种指标提取出来,也就是找出相应的字段,通过计算,得到这五种指标。

LRFMC 模型的一个重要作用就是帮助我们对用户进行分类,针对不同类型的用户可以采取针对性的策略。比如根据模型分出了长期稳定、重度消费的用户,对这一类用户就可以重点优先服务,而对于不怎么使用服务,投入度较低的用户,便可以减少关注度。