机器学习和深度学习概念浅谈

916 阅读6分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

引言

2022年的现在,深度学习已经十分流行,在各个领域表现出了很强大的能力。缺陷就是深度学习十分依赖数据,体现在量和质两方面。深度学习对数据量级要求很高;深度学习对数据规范要求很高。数据集不但要保证量足,还得具备多样性、具备标签、要干净没有噪声等等。

这就使得像BAT这样拥有海量数据的企业最容易在该领域有所突破,具备先发优势;小公司则很难入局,主要是无法跨越数据的门槛。

AI的概念虽然提出的很早,1950年就有了。但真正的应用还是在20世纪90年代,语音识别技术取得突破。取得突破主要原因是放弃了符号学派的思路,改用统计思路解决。

2006年是深度学习发展史的分水岭,很多文章在这一年发布,理论层面取得突破。究其原因还是2个条件已经成熟:互联网的高速发展形成了海量数据,同时存储成本下降;计算机算力提升使得海量数据分析成为可能。简单说就是:数据+算力。数据加算力使得深度学习达到可用的阶段,而不是仅仅停留在学术研究阶段。

深度学习的边界

深度学习驱动的AI的天花板在哪,从理论层面来说,上世纪30年代,图灵就在思考3个问题:

  1. 世界上是否所有数学问题都有明确的答案?
  2. 如果有明确的答案,是否可以通过有限步骤计算出来?
  3. 对于可以在有限步骤计算出的数学问题,是否有一种机器,让它不断运动,最后当机器停下来的时候,那个数学问题就解决了? 关于以上问题,图灵设计了一套方法,后人称为“图灵机”。当今的计算机,从解决问题的能力来讲,都没有超出图灵机的范畴。

image.png

世界上有很多问题,数学问题只是一部分;在数学问题中,只有一部分是有解的;在有解的问题中,只有一部分是图灵机可以解决的;在图灵机可以解决的问题中,只有一部分是今天的计算机可以解决的;在计算机可以解决的问题中,只有一部分是深度学习可以解决的。

技术总是在短期内被高估,但又在长期内被低估。

深度学习推动的AI,其实渗透在生活的方方面面,例如:输入法、美颜相机、抖音里的道具、微信的语音转文字、今日头条的推荐、垃圾短信过滤功能、手机操作系统、FaceID、小爱同学......仔细一想,你会发现,身边随处可见AI技术。

最著名的就是谷歌依靠深度学习研发的阿尔法go,击败了世界围棋冠军。但除了下围棋,它一概不会。也就说深度学习边界已经很清晰了,如今再光靠更深层的网络来堆砌已经无法提高性能了,所以出现了强化学习、深度学习结合的情况,深度强化学习,当然还有其它的结合。再看看深度学习所处的位置:

image.png


可以看到,AI的核心是机器学习。机器学习最终目的其实还是解决实际问题。最难的部分就是把现实问题转换为数学问题。数学问题可以利用很多的公式去求解,所以关键一步就是把实际问题转换为数学问题,也叫建模。通过训练集,不断识别特征,不断建模,最后形成有效的模型,这个过程就叫“机器学习”。机器学习大致有监督学习、无监督学习和强化学习三类。

前面说的深度学习需要大量规范的数据,这指的是监督学习,给数据打上标签,这种通过人工打标签来帮助机器学习的方式效果非常好,缺点是成本很高。而非监督学习就能很好的克服这一点。无监督学习数据集没有标签,无监督学习需要从给定的数据集中,挖掘潜在的结构。例如给一堆猫和狗的图片,无监督学习可以将他们区分开来,但并不知道哪个是猫,哪个是狗,相当于分成了A、B两类。

强化学习更接近生物学习的本质,因此有望获得更高的智能。它关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过强化学习,一个智能体应该知道在什么状态下采取什么行动。

机器学习实操大致分7个步骤:

image.png 以下是常见的机器学习算法:

算法训练方式类型简介
线性回归监督学习回归是处理回归任务最常用的算法之一,该算法形式十分简单,它期望使用一个超平面拟合数据集
逻辑回归监督学习分类用于处理因变量为分类变量的回归问题,二分类或二项分布就是,也可处理多分类问题
线性判别分析监督学习
决策树监督学习分类一种简单但广泛使用的分类器,通过训练数据构建决策树,对未知的数据进行分类
朴素贝叶斯监督学习分类基于贝叶斯定理的统计学分类方法,通过预测一个给定的元组属于一个特定类的概率,来进行分类。
K邻近监督学习分类+回归通过搜索K个最相似的实例的整个训练集并总结那些K个实例的输出变量,对新数据点进行预测
学习向量量化监督学习
支持向量机监督学习分类把分类问题转化为寻找分类平面的问题,通过最大化分类边界点距离分类平面的距离来实现分类
随机森林监督学习
AdaBoost监督学习分类+回归从训练集中学习一系列的弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器
神经网络监督学习分类+回归线性结构按不同方式组成不同的网络
高斯混合模型非监督学习
限制波尔兹曼机非监督学习
K-means聚类非监督学习
最大期望算法非监督学习

监督学习有2个主要任务:回归和分类。回归是预测连续的、具体的数值。分类则是对各种事务分门别类,用于离散型预测。

image.png

监督学习是目的明确的训练方式,知道得到的是什么;无监督学习则是没有明确目的的训练方式,无法提前知道结果是什么。监督学习由于目标明确,所以可以衡量效果;无监督学习几乎无法量化效果如何。

image.png