这是我参与「第四届青训营」笔记创作活动的的第20天
01.机器学习概览
1.1 为什么要机器学习?
1)人工智能时代已经到来
(1)个性化推荐
(2)机器翻译
(3)人脸识别
......
- 大数据成为热议的内容
(1) 数据多
(2) 产生快
(3) 形式杂
(4) 组织乱
- 解决实际的业务决策问题
(1)数据价值
1.2 什么是机器学习?
Machine Learning is the field of study that gives computers the ability to learn without being explicitly programmed. -- Arthur Samuel, 1959
-
机器学习就是把无序的数据转换为有用的信息
-
从数据中自动分析获得模型,并利用模型对未知数据进行预测
标准流程
1.3 机器学习算法有哪些?
机器学习有非常多的种类及相应的算法,主要可以分成三大类:
● 监督/非监督学习--取决于训练是否需要人类的监督
● 批量/在线学习--取决于系统是否能持续地从数据流中学习并更新
● 基于实例/模型学习-取决于系统是直接把新数据与旧数据比较,还是通过建模来预测
1.4 机器学习的挑战有哪些?
➢ 在机器学习中,面临的挑战主要来自两大模块:糟糕的算法和糟糕的数据。
1.算法的问题主要有以 下两种:
1)过拟合( Overfitting )
2)欠拟合( Underfitting)
2.数据的问题具体表现为:
1)训练数据太少
2)训练数据不具备代表性
3)数据本身质量很差
4)选取的特征没有相关性
➢ 在大数据场景下,对资源的要求非常高,比如存储和算力。
02.特征工程
2.1 概述
定义:特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
创造新的特征是一件非常困难的事情,需要丰富的专业知识和大量的时间。 机器学习的本质本质就是特征工程。 - Andrew Ng
2.2 流程
2.3 Embedding 概览简介
1)Embedding,即嵌入,起先源自于NLP领域,称为「词嵌入( word embedding)」, 主要是利用背景信息构建词汇的分布式表示,最终可以得 到一种词的向量化表达,即用-一个抽象的稠密向量来表征一个词。
2)直观上看embedding相当于是对oneHot做了平滑,而oneHot相当于是对embedding做了max pooling。
2.4 Embedding 产生过程
2.4 Embedding 产生
2.5 Embedding 意义作用
1)解决维度灾难,降低复杂度。
2)解决稀疏容易造成的梯度消失的问题
3)增加语义信息,能够很好地挖掘嵌入实体间的内部关联
2.6 Embedding 应用场景
1)在深度学习网络中作为Embedding层
2)作为预训练的Embedding特征向量
3)Embedding 可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一
03. 聚类算法
3.1 概览简介
聚类算法是一种无监督的机器学习算法。在给定的数据集中,我们可以通过聚类算法将具有相似特征的数据分成一组,不相似特征的数据分成不同组。
1) K-means
2) DBSCAN
3)层次聚类
➢ 常用聚类特征:
1)人口属性:性别、年龄、地域等等
2)常用指标:活跃度、时长、消费次数等等
3)消费偏好:用户使用不同功能的时长占比、点击占比,每天进入该app的启动方式等等
3.2 应用场景
1)指标波动场景
2)精细化运营
3)PMF (Product-Market Fit)
3.3 K-means
1.首先,我们确定要聚类的数量,并随机初始化它们各自的中心点。
2.通过计算当前点与每个簇中心之间的距离,将每个数据点归到与之距离最近的中心的簇中。
3.基于迭代后的结果,计算每一簇内,所有点的平均值,作为新簇中心。
4.迭代重复这些步骤,或者直到簇中心在迭代之间变化不大。
关于聚类的簇数量最优选择,常用肘部法和轮廓系数法,可参考此文章 https :/www.biaodianfu.com/k means-choose-k.html
04.聚类画像分析
4.1 概览简介
一个基于聚类的用户画像分析工具,以对用户群体进行标注及定位
1)洞察群体用户在站内的消费、投稿内容生态情况
2)研究用户与内容的关系和演变,理解业务增长的变化,制定用户与内容的增长策略。
4.2 流程
4.3 分析过程一样本选定
4.3 分析过程一向量获取
选择Embedding作为聚类算法特征的依据:
1)具有用户行为的语义特征,能学习到用户行为数据之间的关联
2)离线分析用到线上推荐特征,可作为线上推荐效果的debug工具,反映其效果好坏
4.3 分析过程一聚类算法
选择K-means算法作为分群的依据:
● 用户推荐向量满足凸优化函数求解问题
● 算法的复杂度、数据量、以及机器资源的trade-off
● 可理解性和算法稳定性
4.3 分析过程- cluster level可视化分析
核心指标层面可分为:
1)定性指标:从内容角度理解cluster人群偏好的兴趣,比如Top 播放视频、Top收藏视频、投稿的随机抽样、词云、头像等
2)定量指标:从数量角度理解cluster人群的具体表现,优劣情况,比如年龄/性别/操作系统的数量分布,视频播放次数、视频完播次数、分享/评论/点赞/收藏率、活跃天数、留存率等
4.3 分析过程一cluster level可视化分析
Cluster中心点漂移diff
相邻两个周期同属于一个cluster的用户占比
4.3 分析过程-人工标注
4.4 应用场景
1.用户群体的兴趣偏好,帮助理解站内人群的结构
2.内容消费情况,帮助理解哪些内容更受欢迎
3.发现核心群体,基于其喜欢的内容,制定增长策略