本文已参与「新人创作礼」活动，一起开启掘金创作之路。

引言

2022年的现在，深度学习已经十分流行，在各个领域表现出了很强大的能力。缺陷就是深度学习十分依赖数据，体现在量和质两方面。深度学习对数据量级要求很高；深度学习对数据规范要求很高。数据集不但要保证量足，还得具备多样性、具备标签、要干净没有噪声等等。

这就使得像BAT这样拥有海量数据的企业最容易在该领域有所突破，具备先发优势；小公司则很难入局，主要是无法跨越数据的门槛。

AI的概念虽然提出的很早，1950年就有了。但真正的应用还是在20世纪90年代，语音识别技术取得突破。取得突破主要原因是放弃了符号学派的思路，改用统计思路解决。

2006年是深度学习发展史的分水岭，很多文章在这一年发布，理论层面取得突破。究其原因还是2个条件已经成熟：互联网的高速发展形成了海量数据，同时存储成本下降；计算机算力提升使得海量数据分析成为可能。简单说就是：数据+算力。数据加算力使得深度学习达到可用的阶段，而不是仅仅停留在学术研究阶段。

深度学习的边界

深度学习驱动的AI的天花板在哪，从理论层面来说，上世纪30年代，图灵就在思考3个问题：

世界上是否所有数学问题都有明确的答案？
如果有明确的答案，是否可以通过有限步骤计算出来？
对于可以在有限步骤计算出的数学问题，是否有一种机器，让它不断运动，最后当机器停下来的时候，那个数学问题就解决了？关于以上问题，图灵设计了一套方法，后人称为“图灵机”。当今的计算机，从解决问题的能力来讲，都没有超出图灵机的范畴。

世界上有很多问题，数学问题只是一部分；在数学问题中，只有一部分是有解的；在有解的问题中，只有一部分是图灵机可以解决的；在图灵机可以解决的问题中，只有一部分是今天的计算机可以解决的；在计算机可以解决的问题中，只有一部分是深度学习可以解决的。

技术总是在短期内被高估，但又在长期内被低估。

深度学习推动的AI，其实渗透在生活的方方面面，例如：输入法、美颜相机、抖音里的道具、微信的语音转文字、今日头条的推荐、垃圾短信过滤功能、手机操作系统、FaceID、小爱同学......仔细一想，你会发现，身边随处可见AI技术。

最著名的就是谷歌依靠深度学习研发的阿尔法go，击败了世界围棋冠军。但除了下围棋，它一概不会。也就说深度学习边界已经很清晰了，如今再光靠更深层的网络来堆砌已经无法提高性能了，所以出现了强化学习、深度学习结合的情况，深度强化学习，当然还有其它的结合。再看看深度学习所处的位置：

可以看到，AI的核心是机器学习。机器学习最终目的其实还是解决实际问题。最难的部分就是把现实问题转换为数学问题。数学问题可以利用很多的公式去求解，所以关键一步就是把实际问题转换为数学问题，也叫建模。通过训练集，不断识别特征，不断建模，最后形成有效的模型，这个过程就叫“机器学习”。机器学习大致有监督学习、无监督学习和强化学习三类。

前面说的深度学习需要大量规范的数据，这指的是监督学习，给数据打上标签，这种通过人工打标签来帮助机器学习的方式效果非常好，缺点是成本很高。而非监督学习就能很好的克服这一点。无监督学习数据集没有标签，无监督学习需要从给定的数据集中，挖掘潜在的结构。例如给一堆猫和狗的图片，无监督学习可以将他们区分开来，但并不知道哪个是猫，哪个是狗，相当于分成了A、B两类。

强化学习更接近生物学习的本质，因此有望获得更高的智能。它关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。通过强化学习，一个智能体应该知道在什么状态下采取什么行动。

机器学习实操大致分7个步骤：

以下是常见的机器学习算法：

算法	训练方式	类型	简介
线性回归	监督学习	回归	是处理回归任务最常用的算法之一，该算法形式十分简单，它期望使用一个超平面拟合数据集
逻辑回归	监督学习	分类	用于处理因变量为分类变量的回归问题，二分类或二项分布就是，也可处理多分类问题
线性判别分析	监督学习
决策树	监督学习	分类	一种简单但广泛使用的分类器，通过训练数据构建决策树，对未知的数据进行分类
朴素贝叶斯	监督学习	分类	基于贝叶斯定理的统计学分类方法，通过预测一个给定的元组属于一个特定类的概率，来进行分类。
K邻近	监督学习	分类+回归	通过搜索K个最相似的实例的整个训练集并总结那些K个实例的输出变量，对新数据点进行预测
学习向量量化	监督学习
支持向量机	监督学习	分类	把分类问题转化为寻找分类平面的问题，通过最大化分类边界点距离分类平面的距离来实现分类
随机森林	监督学习
AdaBoost	监督学习	分类+回归	从训练集中学习一系列的弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器
神经网络	监督学习	分类+回归	线性结构按不同方式组成不同的网络
高斯混合模型	非监督学习
限制波尔兹曼机	非监督学习
K-means聚类	非监督学习
最大期望算法	非监督学习

监督学习有2个主要任务：回归和分类。回归是预测连续的、具体的数值。分类则是对各种事务分门别类，用于离散型预测。

监督学习是目的明确的训练方式，知道得到的是什么；无监督学习则是没有明确目的的训练方式，无法提前知道结果是什么。监督学习由于目标明确，所以可以衡量效果；无监督学习几乎无法量化效果如何。

机器学习和深度学习概念浅谈

引言

深度学习的边界