这是我参与「第四届青训营 」笔记创作活动的第11天
一.机器学习
1.机器学习
- 机器学习就是把无序的数据转换为有用的信息
- 从数据中自动分析获得模型,并利用模型对未知数据进行预测
2.机器学习算法
- 监督/非监督学习:取决于训练是否需要人类的监督
- 批量/在线监督:取决于系统是否能持续地从数据流中学习并更新
- 基于实例/模型学习:取决于系统是直接把新数据与旧数据比较,还是通过建模来预测
3.挑战:糟糕的算法和糟糕的数据
在大数据场景下,对资源的要求非常高,比如存储和算力 算法
- 过拟合
- 欠拟合 数据
- 训练数据太少
- 训练数据不具备代表性
- 数据本身质量很差
- 选取的特征没有相关性
二.特征工程
1.概述
- 定义:特征工程是将原始数据转化为更好的表达问题本质的特征的过程。
- 意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
2.流程
3.Embedding
主要是利用背景信息构建词汇的分布式表示,最终可以得到一种此的向量化表达,即用一个抽象的稠密向量来表征一个词
4.Embedding产生过程
5.Embedding意义作用
- 解决维度灾难,降低复杂度
- 解决稀疏容易造成的梯度消失的问题
- 增加语义信息,能够很好地挖掘嵌入实体间的内部关联
6.Embedding应用场景
- 在深度学习网络中作为Embedding层
- 作为预训练的Embedding特征向量
- Embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一
三.聚类算法
1.概览简介
聚类算法是一种无监督的机器学习算法,在给定的数据集中,可以通过聚类算法将具有相似特征的数据分成一组,不相似特征的数据分成不同组。(K-means、DBSCAN、层次聚类)
2.应用场景
- 指标波动场景
- 精细化运营
- PMF
3.K-means
- 首先,要确定聚类的数量,并随机初始化它们各自的中心点。
- 通过计算当前点与每个中心簇中心之间的距离,将每个数据点归到与之距离最近的中心的簇中。
- 基于迭代后的结果,计算每一簇内,所有点的平均值,作为新簇中心。
- 迭代重复这些步骤,或者直到簇中心在迭代之间变化不大
4.聚类画像分析
- 基于聚类的用户画像分析工具,以对用户群体进行标注及定位
- 洞察群体用户在站内的消费、投稿内容生态情况
- 研究用户与内容的关系和演变,了解业务增长的变化,制定用户与内容的增长策略。
5.分析过程
样本选定
向量获取
- 具有用户行为的语义特征,能学习到用户行为数据之间的关联
- 离线分析用到线上推荐特征,可作为线上推荐效果的debug工具,反映其效果好坏 聚类算法 选择K-means算法作为分群的依据:
- 用户推荐向量满足凸优化函数求解问题
- 算法的复杂度、数据量、以及机器资源的trade-off
- 可理解性和算法稳定性
cluster level可视化分析
- 定性指标:从内容角度理解cluter人群偏好的兴趣,比如Top播放视频、Top收藏视频、投稿的随机抽样、词云、头像等
- 定量指标:从数量角度理解cluster人群的具体表现,优劣情况,比如年龄/性别/操作系统的数量分布,视频播放次数、视频完播次数、分享/评论/点赞/收藏率、活跃天数、留存率等
人工标注
6.应用场景
- 用户群体的兴趣偏好,帮助理解站内人群的结构
- 内容消费情况,帮助理解哪些内容更受欢迎
- 发现核心群体,基于其喜欢的内容,制定增长策略