这是我参与「第四届青训营 」笔记创作活动的第1天
随着AI时代的到来,大数据成为热议的内容,在数据分析中,机器学习、特征工程等前沿技术可以帮助我们在大数据中挖掘数据背后隐藏的价值。
一、本堂课重点内容:
- 机器学习概览
- 特征工程
- 聚类算法
- 聚类画像分析
二、详细知识点介绍:
- 机器学习概览
机器学习是搭建一个能够自主从数据(或经验)中学习潜在规则的系统。在合适的情景下,尤其是解决复杂问题时,它能有效简化系统和代码,并大大降低后期策略迭代与维护的成本。
- 机器学习就是把无序的数据转换为有用的信息
- 从数据中自动分析获得模型,并利用模型对未知数据进行预测
- 机器学习算法流程:获取数据、数据探测、特征工程、构建数据集、建模调参、模型评估
常见的机器学习算法:监督学习、非监督学习(聚类)、K-Means、PCA等。
- 特征工程
特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
意义:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程包含以下几个过程:数据理解、数据预处理、特征构造、特征选择
- 聚类算法
聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。在理论上,相同的组的数据之间有相似的属性或者是特征,不同组数据之间的属性或者特征相差就会比较大。聚类算法是一种非监督学习算法,并且作为一种常用的数据分析算法在很多领域上得到应用。
- 常用的聚类方法:
-
- K-means
- DBSCAN
- 层次聚类;
这些常用聚类方法所依赖的常用聚类特征较为偏向统计学类特征。
- 聚类画像分析
(1)帮助运营分析师PM等洞察群体用户在站内的消费、投稿内容生态情况;(2)研究用户与内容的关系和演变,理解业务增长的变化,制定用户与内容的增长策略,以使得用户分析更简便、更灵活、更快获取数据背后所隐藏的价值。
三、实践练习例子:
聚类算法应用场景
- 指标波动场景。举例:某个重要的KPI发生变化时,我们会思考是不是某个特定人群导致了这个波动,然后针对这样的波动找到应对的办法;
- 精细化运营。举例:在做某个业务的增长,我们会思考哪些是潜力用户,在定位到潜力用户后进一步思考如何更好地承接他们;
- PMF(Product-Market Fit)。即研究给什么样的细分人群提供什么样的内容才能达到最好的匹配效果。
四、课后个人总结:
机器学习的挑战有哪些?
- 算法方面
- 过拟合(Overfitting):意味着算法可能过于复杂,不止学到了该学的规则,还将噪音、异常学到心里,使得无法很好预测新样本。
- 欠拟合(Underfitting):意味着算法可能过于简单,没学到精髓。
- 解决办法:zhuanlan.zhihu.com/p/356298455
- 数据方面
- 训练数据太少
现实中获取巨量数据的成本往往很高,一般是中小型的数据集,所以还是不要轻易放弃算法优化。
- 训练数据不具有代表性
在数据量小的情况下,数据的增减容易引起模型不断变动。 在数据量大的情况下,如果样本不具备代表性,那么训练结果也会引入偏差
- 数据本身质量很差
噪音、缺漏、异常等会使得系统更难发现内在的规律和模式,需要数据清洗。
- 选取的特征没有相关性
“Garbage in, garbage out”,训练数据要有足够多的相关特征、尽量减少无关特征,才能让机器学习的系统更好地更快地学习到隐含的规则。
需要运用特征工程(Feature Engineering)来获取相关度高的特征集。
在 大数据 场景下,对资源的要求非常高,比如存储和算力。