这是我参与「第四届青训营 」笔记创作活动的第15天
1. 机器学习概览
1.1 为什么要机器学习?
-
人工智能时代已经到来
- 个性化推荐
- 机器翻译
- 人脸识别
- 等等
-
大数据成为热议内容
- 数据多
- 产生快
- 形式杂
- 组织乱
-
解决实际的业务决策问题
- 数据价值
1.2 什么是机器学习?
Machine learning is the field of study that gives computers the ability to learn without being explicity programmed. ----Arthur Samuel 1959
机器学习就是把无序的数据转换为有用的信息 从数据中自动分析获得模型,并利用模型对未知数据进行预测
标准流程:
原始数据 --> 数据探测 --> 特征工程 --> 构建数据集 --> 建模调参 --> 模型评估
1.3 机器学习算法有哪些?
主要分为三大类:
- 监督/非监督学习:取决于训练是否需要人类的监督
- 批量/在线学习:取决于系统是否能持续地从数据流中学习并更新
- 基于实例/模型学习:取决于系统是直接把新数据与旧数据比较,还是通过建模来预测
1.4 机器学习的挑战有哪些?
在机器学习中,面临的挑战主要来自两大模块:糟糕的算法和糟糕的数据
(1)算法的问题
- 过拟合
- 欠拟合
(2)数据的问题
- 训练数据太少
- 训练数据不具备代表性
- 数据本身质量很差
- 选取的特征没有相关性
在大数据场景下,对资源的要求非常高,比如存储和算力
2. 特征工程
2.1 概述
定义:特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
创造新的特征是一件非常困难的事情,需要丰富的专业知识和大量的时间。
机器学习的本质就是特征工程。
2.2 流程
特征工程:
- 数据理解
- 数据预处理
- 特征构造
- 特征选择
2.3 Embedding 概览
Embedding嵌入,起源于NLP领域,称为词嵌入,主要是利用背景信息构建词汇的分布式表示,最终可以得到一种词的向量化表达,即用一个抽象的稠密向量来表征一个词
2.4 Embedding产生过程
2.5 Embedding意义作用
- 解决维度灾难,降低复杂度
- 解决稀疏容易造成的梯度消失的问题
- 增加语义信息,能够很好的挖掘嵌入实体间的内部联系
2.6 Embedding应用场景
- 在深度学习网络中作为Embedding层
- 作为预训练的Embedding特征向量
- Embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一
3. 聚类算法
聚类算法是一种无监督的机器学习算法。在给定的数据集中,我们可以通过聚类算法将具有相似特征的数据分成一组,不相似特征的数分成不同组。
- K-means
- DBSCAN
- 层次聚类
常用的聚类特征:
- 人口属性:性格、年龄、地域等
- 常用指标:活跃度、时长、消费次数等等
- 消费偏好:用户使用不同功能的市场占比、点击占比,每天进入该App的启动方式等等
3.1 对比
| 优点 | 缺点 | |
|---|---|---|
| K-means | 实现简单快速、聚类的类别相对均匀 | 受初始点选择影响较大,无法自定义距离,无法识别离散群点,需要事先确定好簇的数据 |
| DBSCAN | 可以识别离散群点,对比特殊分布效果好 | 聚类的类别欠均匀,受密度定义影响较大,不擅长处理密度不均的数据 |
| 层次聚类 | 对特殊分布效果好,类的层次关系具有一定价值 | 有时聚出的类别欠均匀、内存不友好 |
3.2 应用场景
- 指标被动场景
- 精细化运营
- PMF(product-Market Fit)
3.3 K-means
(1) 首先,我们确定要聚类的数量,并随机初始化它们各自的中心点。
(2) 通过计算当前点与每个簇中心之间的距离,将每个数据点归到与之距离最近的中心的簇中
(3) 基于迭代后的结果,计算每一个簇内,所有点的平均值,作为新簇中心
(4) 迭代重复这些步骤,或者直到簇中心在迭代之间变化不大
4. 聚类画像分析
4.1 概览
一个基于聚类的用户画像分析工具,以对用户群体进行标注和定位
- 洞察群体用户在站内的消费和投稿内容等情况
- 研究用户与内容的关系与演变,理解业务增长的变化,制定用户与内容的增长策略。
4.2 流程
4.4 应用场景
- 用户群体的兴趣偏好,帮助理解站内人群的结构
- 内容消费情况,帮助理解哪些内容更受欢迎
- 发现核心群体,基于其喜欢的内容,指定增长策略。