AWS 机器学习是当今发展最快的技术之一了,如果我们有相应的机器学习能力,将会是现在就业市场里面“最靓的仔”,很抢手。
什么是机器学习?
机器学习是研究计算机系统在没有任何明确指令的情况下执行某些任务的各种算法和模型。
监督机器学习
在监督方法中,输入和输出的变量是给定的,我们通过分析输入和输出的关系来找到规律,并且以后就能通过一个给定的输入,输出一个估计的输出了。换句话说,我们是很明确知道我们的输入和输出的,我们是知道我们要的结果是怎么样的。
举个例子,如果我们收集了一组数据X,里面包含了房子的面积X1,房子的楼龄X2,房子的周边人口基数X3,以及对应的Y(房价)。我们可以通过很多组X和Y的数据作为训练数据,然后通过监督学习的算法,计算出X和Y的对应关系。这样,如果我们要预测一个房子的房价,我们只需要输入X的数据就可以了。
监督机器学习又有分类和线性回归等方法,像刚才举例的预测房价的问题就是一种线性回归的方法。而分类的方法也很直观,比如我还是通过同样一组数据X(房子的面积,楼龄,周边人口基数),来预测房价是否高于4W/平方,这个就是一个二分类的方法。
无监督学习
无监督学习中,我们只有输入的数据,没有输出的数据,算法通过输入的数据来学习并且产生结果。换句话说,就是我们有一堆现有数据,但是我们并不知道这组数据的规律,我们也不知道应该选择什么参数作为X(或者能作为X的参数太多太复杂了)。
两种主流的无监督学习方法是聚类和降维,在这里稍微解释一下(因为这个文章不是机器学习101,所以不做太深度讲解了)。聚类的例子是我们常见的电商推荐系统,我们可以对很多用户的行为和购买习惯来作为无监督学习的输入,来对不同用户进行分类,推荐给客户最有可能喜欢的商品。降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。