本文已参与「新人创作礼」活动,一起开启掘金创作之路。
引言
2022年的现在,深度学习已经十分流行,在各个领域表现出了很强大的能力。缺陷就是深度学习十分依赖数据,体现在量和质两方面。深度学习对数据量级要求很高;深度学习对数据规范要求很高。数据集不但要保证量足,还得具备多样性、具备标签、要干净没有噪声等等。
这就使得像BAT这样拥有海量数据的企业最容易在该领域有所突破,具备先发优势;小公司则很难入局,主要是无法跨越数据的门槛。
AI的概念虽然提出的很早,1950年就有了。但真正的应用还是在20世纪90年代,语音识别技术取得突破。取得突破主要原因是放弃了符号学派的思路,改用统计思路解决。
2006年是深度学习发展史的分水岭,很多文章在这一年发布,理论层面取得突破。究其原因还是2个条件已经成熟:互联网的高速发展形成了海量数据,同时存储成本下降;计算机算力提升使得海量数据分析成为可能。简单说就是:数据+算力。数据加算力使得深度学习达到可用的阶段,而不是仅仅停留在学术研究阶段。
深度学习的边界
深度学习驱动的AI的天花板在哪,从理论层面来说,上世纪30年代,图灵就在思考3个问题:
- 世界上是否所有数学问题都有明确的答案?
- 如果有明确的答案,是否可以通过有限步骤计算出来?
- 对于可以在有限步骤计算出的数学问题,是否有一种机器,让它不断运动,最后当机器停下来的时候,那个数学问题就解决了? 关于以上问题,图灵设计了一套方法,后人称为“图灵机”。当今的计算机,从解决问题的能力来讲,都没有超出图灵机的范畴。
世界上有很多问题,数学问题只是一部分;在数学问题中,只有一部分是有解的;在有解的问题中,只有一部分是图灵机可以解决的;在图灵机可以解决的问题中,只有一部分是今天的计算机可以解决的;在计算机可以解决的问题中,只有一部分是深度学习可以解决的。
技术总是在短期内被高估,但又在长期内被低估。
深度学习推动的AI,其实渗透在生活的方方面面,例如:输入法、美颜相机、抖音里的道具、微信的语音转文字、今日头条的推荐、垃圾短信过滤功能、手机操作系统、FaceID、小爱同学......仔细一想,你会发现,身边随处可见AI技术。
最著名的就是谷歌依靠深度学习研发的阿尔法go,击败了世界围棋冠军。但除了下围棋,它一概不会。也就说深度学习边界已经很清晰了,如今再光靠更深层的网络来堆砌已经无法提高性能了,所以出现了强化学习、深度学习结合的情况,深度强化学习,当然还有其它的结合。再看看深度学习所处的位置:
可以看到,AI的核心是机器学习。机器学习最终目的其实还是解决实际问题。最难的部分就是把现实问题转换为数学问题。数学问题可以利用很多的公式去求解,所以关键一步就是把实际问题转换为数学问题,也叫建模。通过训练集,不断识别特征,不断建模,最后形成有效的模型,这个过程就叫“机器学习”。机器学习大致有监督学习、无监督学习和强化学习三类。
前面说的深度学习需要大量规范的数据,这指的是监督学习,给数据打上标签,这种通过人工打标签来帮助机器学习的方式效果非常好,缺点是成本很高。而非监督学习就能很好的克服这一点。无监督学习数据集没有标签,无监督学习需要从给定的数据集中,挖掘潜在的结构。例如给一堆猫和狗的图片,无监督学习可以将他们区分开来,但并不知道哪个是猫,哪个是狗,相当于分成了A、B两类。
强化学习更接近生物学习的本质,因此有望获得更高的智能。它关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过强化学习,一个智能体应该知道在什么状态下采取什么行动。
机器学习实操大致分7个步骤:
以下是常见的机器学习算法:
| 算法 | 训练方式 | 类型 | 简介 |
|---|---|---|---|
| 线性回归 | 监督学习 | 回归 | 是处理回归任务最常用的算法之一,该算法形式十分简单,它期望使用一个超平面拟合数据集 |
| 逻辑回归 | 监督学习 | 分类 | 用于处理因变量为分类变量的回归问题,二分类或二项分布就是,也可处理多分类问题 |
| 线性判别分析 | 监督学习 | ||
| 决策树 | 监督学习 | 分类 | 一种简单但广泛使用的分类器,通过训练数据构建决策树,对未知的数据进行分类 |
| 朴素贝叶斯 | 监督学习 | 分类 | 基于贝叶斯定理的统计学分类方法,通过预测一个给定的元组属于一个特定类的概率,来进行分类。 |
| K邻近 | 监督学习 | 分类+回归 | 通过搜索K个最相似的实例的整个训练集并总结那些K个实例的输出变量,对新数据点进行预测 |
| 学习向量量化 | 监督学习 | ||
| 支持向量机 | 监督学习 | 分类 | 把分类问题转化为寻找分类平面的问题,通过最大化分类边界点距离分类平面的距离来实现分类 |
| 随机森林 | 监督学习 | ||
| AdaBoost | 监督学习 | 分类+回归 | 从训练集中学习一系列的弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器 |
| 神经网络 | 监督学习 | 分类+回归 | 线性结构按不同方式组成不同的网络 |
| 高斯混合模型 | 非监督学习 | ||
| 限制波尔兹曼机 | 非监督学习 | ||
| K-means聚类 | 非监督学习 | ||
| 最大期望算法 | 非监督学习 |
监督学习有2个主要任务:回归和分类。回归是预测连续的、具体的数值。分类则是对各种事务分门别类,用于离散型预测。
监督学习是目的明确的训练方式,知道得到的是什么;无监督学习则是没有明确目的的训练方式,无法提前知道结果是什么。监督学习由于目标明确,所以可以衡量效果;无监督学习几乎无法量化效果如何。