行为数据分析理论与最佳实践|青训营笔记

2022-08-19 107 阅读4分钟

这是我参与「第四届青训营」笔记创作活动的第11天

一.机器学习

1.机器学习

机器学习就是把无序的数据转换为有用的信息
从数据中自动分析获得模型，并利用模型对未知数据进行预测

2.机器学习算法

监督/非监督学习：取决于训练是否需要人类的监督
批量/在线监督：取决于系统是否能持续地从数据流中学习并更新
基于实例/模型学习：取决于系统是直接把新数据与旧数据比较，还是通过建模来预测

3.挑战：糟糕的算法和糟糕的数据

在大数据场景下，对资源的要求非常高，比如存储和算力算法

过拟合
欠拟合数据
训练数据太少
训练数据不具备代表性
数据本身质量很差
选取的特征没有相关性

二.特征工程

1.概述

定义：特征工程是将原始数据转化为更好的表达问题本质的特征的过程。
意义：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

2.流程

3.Embedding

主要是利用背景信息构建词汇的分布式表示，最终可以得到一种此的向量化表达，即用一个抽象的稠密向量来表征一个词

4.Embedding产生过程

5.Embedding意义作用

解决维度灾难，降低复杂度
解决稀疏容易造成的梯度消失的问题
增加语义信息，能够很好地挖掘嵌入实体间的内部关联

6.Embedding应用场景

在深度学习网络中作为Embedding层
作为预训练的Embedding特征向量
Embedding可以直接作为推荐系统或计算广告系统的召回层或者召回方法之一

三.聚类算法

1.概览简介

聚类算法是一种无监督的机器学习算法，在给定的数据集中，可以通过聚类算法将具有相似特征的数据分成一组，不相似特征的数据分成不同组。（K-means、DBSCAN、层次聚类）

2.应用场景

指标波动场景
精细化运营
PMF

3.K-means

首先，要确定聚类的数量，并随机初始化它们各自的中心点。
通过计算当前点与每个中心簇中心之间的距离，将每个数据点归到与之距离最近的中心的簇中。
基于迭代后的结果，计算每一簇内，所有点的平均值，作为新簇中心。
迭代重复这些步骤，或者直到簇中心在迭代之间变化不大

4.聚类画像分析

基于聚类的用户画像分析工具，以对用户群体进行标注及定位
洞察群体用户在站内的消费、投稿内容生态情况
研究用户与内容的关系和演变，了解业务增长的变化，制定用户与内容的增长策略。

5.分析过程

样本选定

向量获取

具有用户行为的语义特征，能学习到用户行为数据之间的关联
离线分析用到线上推荐特征，可作为线上推荐效果的debug工具，反映其效果好坏聚类算法选择K-means算法作为分群的依据：
用户推荐向量满足凸优化函数求解问题
算法的复杂度、数据量、以及机器资源的trade-off
可理解性和算法稳定性

cluster level可视化分析

定性指标：从内容角度理解cluter人群偏好的兴趣，比如Top播放视频、Top收藏视频、投稿的随机抽样、词云、头像等
定量指标：从数量角度理解cluster人群的具体表现，优劣情况，比如年龄/性别/操作系统的数量分布，视频播放次数、视频完播次数、分享/评论/点赞/收藏率、活跃天数、留存率等

人工标注

6.应用场景

用户群体的兴趣偏好，帮助理解站内人群的结构
内容消费情况，帮助理解哪些内容更受欢迎
发现核心群体，基于其喜欢的内容，制定增长策略