这是我参与「第四届青训营」笔记创作活动的第15天

1. 机器学习概览

1.1 为什么要机器学习？

人工智能时代已经到来
- 个性化推荐
- 机器翻译
- 人脸识别
- 等等
大数据成为热议内容
- 数据多
- 产生快
- 形式杂
- 组织乱
解决实际的业务决策问题
- 数据价值

1.2 什么是机器学习？

Machine learning is the field of study that gives computers the ability to learn without being explicity programmed. ----Arthur Samuel 1959

机器学习就是把无序的数据转换为有用的信息从数据中自动分析获得模型，并利用模型对未知数据进行预测

标准流程：

原始数据 --> 数据探测 --> 特征工程 --> 构建数据集 --> 建模调参 --> 模型评估

1.3 机器学习算法有哪些？

主要分为三大类：

监督/非监督学习：取决于训练是否需要人类的监督
批量/在线学习：取决于系统是否能持续地从数据流中学习并更新
基于实例/模型学习：取决于系统是直接把新数据与旧数据比较，还是通过建模来预测

1.4 机器学习的挑战有哪些？

在机器学习中，面临的挑战主要来自两大模块：糟糕的算法和糟糕的数据

（1）算法的问题

过拟合
欠拟合

（2）数据的问题

训练数据太少
训练数据不具备代表性
数据本身质量很差
选取的特征没有相关性

在大数据场景下，对资源的要求非常高，比如存储和算力

2. 特征工程

2.1 概述

定义：特征工程是将原始数据转化成更好的表达问题本质的特征的过程。

意义：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

创造新的特征是一件非常困难的事情，需要丰富的专业知识和大量的时间。

机器学习的本质就是特征工程。

2.2 流程

特征工程：

数据理解
数据预处理
特征构造
特征选择

2.3 Embedding 概览

Embedding嵌入，起源于NLP领域，称为词嵌入，主要是利用背景信息构建词汇的分布式表示，最终可以得到一种词的向量化表达，即用一个抽象的稠密向量来表征一个词

2.4 Embedding产生过程

2.5 Embedding意义作用

解决维度灾难，降低复杂度
解决稀疏容易造成的梯度消失的问题
增加语义信息，能够很好的挖掘嵌入实体间的内部联系

2.6 Embedding应用场景

在深度学习网络中作为Embedding层
作为预训练的Embedding特征向量
Embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一

3. 聚类算法

聚类算法是一种无监督的机器学习算法。在给定的数据集中，我们可以通过聚类算法将具有相似特征的数据分成一组，不相似特征的数分成不同组。

K-means
DBSCAN
层次聚类

常用的聚类特征：

人口属性：性格、年龄、地域等
常用指标：活跃度、时长、消费次数等等
消费偏好：用户使用不同功能的市场占比、点击占比，每天进入该App的启动方式等等

3.1 对比

	优点	缺点
K-means	实现简单快速、聚类的类别相对均匀	受初始点选择影响较大，无法自定义距离，无法识别离散群点，需要事先确定好簇的数据
DBSCAN	可以识别离散群点，对比特殊分布效果好	聚类的类别欠均匀，受密度定义影响较大，不擅长处理密度不均的数据
层次聚类	对特殊分布效果好，类的层次关系具有一定价值	有时聚出的类别欠均匀、内存不友好

3.2 应用场景

指标被动场景
精细化运营
PMF(product-Market Fit)

3.3 K-means

(1) 首先，我们确定要聚类的数量，并随机初始化它们各自的中心点。

(2) 通过计算当前点与每个簇中心之间的距离，将每个数据点归到与之距离最近的中心的簇中

(3) 基于迭代后的结果，计算每一个簇内，所有点的平均值，作为新簇中心

(4) 迭代重复这些步骤，或者直到簇中心在迭代之间变化不大

4. 聚类画像分析

4.1 概览

一个基于聚类的用户画像分析工具，以对用户群体进行标注和定位

洞察群体用户在站内的消费和投稿内容等情况
研究用户与内容的关系与演变，理解业务增长的变化，制定用户与内容的增长策略。

4.2 流程

4.4 应用场景

用户群体的兴趣偏好，帮助理解站内人群的结构
内容消费情况，帮助理解哪些内容更受欢迎
发现核心群体，基于其喜欢的内容，指定增长策略。

行为数据分析理论与最佳实践 | 青训营笔记