数据分析前沿技术|青训营笔记随着AI时代的到来，大数据成为热议的内容，在数据分析中，机器学习、特征工程等前沿技术可以帮助

这是我参与「第四届青训营」笔记创作活动的第1天

随着AI时代的到来，大数据成为热议的内容，在数据分析中，机器学习、特征工程等前沿技术可以帮助我们在大数据中挖掘数据背后隐藏的价值。

一、本堂课重点内容：

机器学习是搭建一个能够自主从数据（或经验）中学习潜在规则的系统。在合适的情景下，尤其是解决复杂问题时，它能有效简化系统和代码，并大大降低后期策略迭代与维护的成本。

常见的机器学习算法：监督学习、非监督学习（聚类）、K-Means、PCA等。

特征工程是将原始数据转化成更好的表达问题本质的特征的过程。

意义：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

特征工程包含以下几个过程：数据理解、数据预处理、特征构造、特征选择

聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中，我们可以通过聚类算法将其分成一些不同的组。在理论上，相同的组的数据之间有相似的属性或者是特征，不同组数据之间的属性或者特征相差就会比较大。聚类算法是一种非监督学习算法，并且作为一种常用的数据分析算法在很多领域上得到应用。

这些常用聚类方法所依赖的常用聚类特征较为偏向统计学类特征。

(1)帮助运营分析师PM等洞察群体用户在站内的消费、投稿内容生态情况；(2)研究用户与内容的关系和演变，理解业务增长的变化，制定用户与内容的增长策略，以使得用户分析更简便、更灵活、更快获取数据背后所隐藏的价值。

聚类算法应用场景

机器学习的挑战有哪些？

现实中获取巨量数据的成本往往很高，一般是中小型的数据集，所以还是不要轻易放弃算法优化。

在数据量小的情况下，数据的增减容易引起模型不断变动。在数据量大的情况下，如果样本不具备代表性，那么训练结果也会引入偏差

噪音、缺漏、异常等会使得系统更难发现内在的规律和模式，需要数据清洗。

“Garbage in, garbage out”，训练数据要有足够多的相关特征、尽量减少无关特征，才能让机器学习的系统更好地更快地学习到隐含的规则。

需要运用特征工程（Feature Engineering）来获取相关度高的特征集。

在 大数据 场景下，对资源的要求非常高，比如存储和算力。