“这是我参与更文挑战的第1天,活动详情查看: 更文挑战”
说到大数据分析与机器学习,大家可能就想到击败了世界顶级围棋选手的智能机器人AlphaGo。AlphaGo背后的原理就是大数据分析。通过不停地进行机器训练与学习,AlphaGo在积累了海量数据后,逐渐掌握了大量围棋技巧,并凭借高速的计算能力击败了顶级围棋选手。机器学习便是模拟或实现人类的学习行为,以探寻大数据背后的规律。机器学习在某种程度上可以说是人工智能的核心。
除了围棋领域,大数据分析在其他领域也有很大的应用空间。在信息时代,我们每天都要接触海量的数据,通过人力在海量的数据中寻找规律有很大的局限性,而通过机器学习则可以高效、快速地对数据进行分析并提炼出规律。
1.机器学习
机器学习是强有力的大数据分析工具。主要分为监督式学习与非监督式学习两大类,两者的区别在于训练数据中是否有目标变量(又称为预测变量)。
监督式学习
主要分为回归分析与分类问题
非监督式学习
数据聚类与分群与数据降维
2.Python在数据科学中的作用
数据分析的工具有很多,如经典的MATLAB与R语言,以及目前非常火的Python。Python之所以能够成为如今大数据分析的主要工具,主要是因为它有很多现成的数据分析及机器学习的工具包,如NumPy库、pandas库、Scikit-Learn库(简称sklearn库)等。大大提高了工作效率。
2.1 Numpy、pandas & Matplotlib
NumPy库和pandas库主要用于处理一维及二维的表格数据,而Matplotlib库是数据可视化的利器。
import numpy as np
import pandas as pd
import Matplotlib。pyplot as plt
第1行引入NumPy库的代码写为“import numpy as np”,这样之后编写代码就可以用np代替numpy,比较简洁。同理,pd,plt也是这个道理。
今天简单介绍下python在数据科学中需要用到的库,明天再看看Numpy的具体使用方法。