初识机器学习

176 阅读3分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情


人们在讨论人工智能的时候,经常会提到机器学习,二者经常被同时提起,也经常容易被混淆。

机器学习并不是一个看见名字就能知道它是干什么的学科,我试着从几方面来解释一下:

  1. 首先,它是人工智能领域的一个分支学科。如果说人工智能是一个概念,那么机器学习就是实现这一概念的一种方法。
  2. 机器学习同时是数据科学的一个细分领域,它非常依赖数据,并且涉及到统计学、概率论等数学分支。
  3. 机器学习的工作原理可以概括为:通过从给定的数据中,获取规律或者模式,并根据这种规律或者模式,推测未知数据。
  4. 我们日常使用的软件中,机器学习已经使用得非常广泛,例如:语音识别、机器翻译、购物推荐、垃圾短信拦截等等。

要是用机器学习技术来解决实际问题,需要一下的几个步骤。

首先,需要给机器学习程序足够的数据,供其「学习」。

如果机器学习程序,是一台解决问题的机器,那么数据就是这台机器的燃料,数据的数量和质量都会决定问题被解决的质量和效率。在常见的互联网服务场景中,这些数据通常来自对用户行为的采集,比如:搜索结果被点开的比率、短视频被播放的时常、购物记录等等,不过现在互联网公司们收集的数据种类的数量远超普通用户的想象,原因就是,数据越多越全面,就越能做更多的模式识别和预测。

第二步,就是要根据已有的数据以及需要解决的问题,选择一种或多种算法。

在机器学习领域中,有各种各样的算法,来完成不同的任务。这些算法大致可以分为常见的三类:

  • 无监督学习:通常用于从已有的数据中发现隐藏的规律、提取隐藏的模式。
  • 监督学习:通常用于数据的预测。它的工作原理是,先根据已有数据以及认为提供的结果,训练出一个模型(可以理解为一个函数),然后当新的数据到来的时候,根据这个模型推测其对应的结果。
  • 增强学习:是将其预测的结果,通过正/负反馈,增强已有的预测模型。

第三步,是参数调优。

每一种机器学习算法,都有适合解决的问题类型,但是针对某个具体问题,参数调得不同,得到的结果也会不同。参数调优的目的,是让模型保持足够低的复杂度的同时,能在识别主要趋势和忽略细微变化之间得到平衡(能抓住关键因素,也不过分敏感)。

最后,就是对模型进行评价。

对模型的评价也是很关键的一部分,通常会通过多个指标进行模型的评价,比如根据预测准确率来评价一个模型,或者通过混淆矩阵(后文介绍)的方法,来分析误差的来源等。

对模型的评价和分析,有助于对模型进行优化,或者重新调整参数、分析数据等。