开场白:本人现在在一家新能源车企当产品经理,打算未来转行AI产品经理,这段时间在学AI相关的知识,这里是记录我学习以及产出的地方,以产品经理的视角来学习AI大模型。如发现问题请指出,欢迎大家一起探讨。
一、机器学习和深度学习的区别?
机器学习和深度学习都是AI的子领域;
机器学习是通过数据训练模型,让模型具有预测效果;它需要人为提取特征,然后通过模型训练进行分类回归,最后进行输出
而深度学习可以说是机器学习的子领域,通过深度神经网络训练模型,让模型能够自动提取复杂特征,它是端到端的模型,不需要人为提取特征
二、机器学习
监督学习:输入数据和对应标签。要求给定新的输入,能够预测出正确的输出标签
无监督学习:输入数据,其中少量数据打了标签
半监督学习:输入数据,没有标签信息
2.1、监督学习
监督学习有明确目的,能够得到量化结果。常用于分类(离散)、回归(连续)场景
监督学习典型算法
- 线性回归
通过学习输入值与输出值的线性关系,来预测目标的输出,常用于股价预测、分数预测等问题
- 逻辑回归
通过学习输入特征与类别的关系,来预测目标的类别标签,处理二分类问题,常用于垃圾邮件分类等问题
- 决策树
以树形结构来展示决策规则和分类结果的模型,常用于客户分类
- 随机森林
构建多个决策树,常用于文本分类
- 朴素贝叶斯
根据贝叶斯定理对数据进行预测
- 支持向量机
构造超平面来最大化数据的边距,来减小分类误差
- K邻近算法
选取距离测试实例最近的k个训练实例,根据这k个训练实例哪个标签占大头,就将该值作为测试实例的预测值
2.2、无监督学习
无监督学习没有训练目标,没有量化结果。通常用于以下场景:
一、发现异常:如通过对特征对用户分类,能够找到一些异常的用户
二、用户细分与推荐:通过性别、年龄、地理位置等维度对用户进行聚类分类,用于广告投放。通过聚类,发现购买行为相似的用户,然后推送用户“可能喜欢”的商品
无监督学习经典算法
① K-means聚类
算法步骤:
- 随机选取k个数据点作为初始聚类中心,
- 计算其他每个数据点到每个聚类中心的距离,距离最近的就被分配到这个簇里面,
- 重新计算这个簇的中心,
- 重复步骤2和3,直到聚类中心不再发生显著变化
应用场景:
- 在电商场景中,通过聚类进行用户划分,理解每个簇类的特征,然后打上标签,形成用户画像,然后基于用户画像,投放对应的广告和推荐商品
- 识别异常数据:如在医疗设备中识别异常生理信号
② PCA降维
通过线性变化将数据转换到新的坐标轴上,使得大部分的方差集中在前面几个主成分
应用场景:常用于图像压缩
2.3、半监督学习
通过用少量带标签的数据和大量未带标签的数据来训练模型,来提高模型的泛化能力,特别适用于标注成本高且标注过程耗时的领域,如语音识别,图像分类
三、深度学习
3.1、神经网络
神经网络是一种模拟生物神经网络的结构和功能的数学模型,神经网络是多层神经元的连接,深度神经网络相比神经网络多了N层隐藏层
神经网络如何学习
目标:让预测值不断逼近真实值
通过前向传播,层层推进,到输出层产出结果
计算预测值与真实值的误差,通过误差来反向传播迭代,通常用梯度下降等方法,调整权重参数,从而让误差不断变小
3.2、深度神经网络
1、卷积神经网络
①、卷积层
使用卷积核在输入数据上滑动,提取局部特征
②、池化层
池化层相比卷积层更能大大地降低数据维度,从而减少计算量,同时也避免了过拟合
- 最大池化:取区域内的最大值
- 平均池化:取区域内的平均值
③、CNN架构
经过卷积层和池化层的数据,才能进入全连接层,才能大大降低计算复杂度。
但一个CNN架构,通常要经过多层卷积和多层池化。通常为:
卷积层-池化层-卷积层-池化层-...-全连接层
④、应用
通常用于图像检索、人脸识别等图像领域
2、循环神经网络RNN
CNN很强大,但CNN无法解决序列数据问题,如文字、音频等内容,这时候就出现了RNN
对于RNN,前面的输入对后面的输出都有影响。但RNN有短期记忆问题,越早的输入影响越小,越晚的输入影响越大,无法处理长期记忆问题。
RNN优化算法
-
LSTM:解决短期记忆问题,只记忆重要信息,忽略不重要的信息
-
GRU:对LSTM的结构进行优化,降低计算量
RNN应用场景
常用于机器翻译,文字语义识别等领域
3、生成对抗网络GAN
GAN有两个结构:
①、生成器G
②、判别器D
训练过程:
- 固定判别器D,训练生成器G
- 固定生成器G,训练判别器D
- 不断循环反复,直到训练出一个好的生成器
应用场景: 用于生成图片,视频等
这里有一篇很通俗易懂的博客,供阅读:一文看懂「生成对抗网络 - GAN」基本原理+10种典型算法+13种应用 (easyai.tech)
4、强化学习
强化学习≠半监督学习
强化学习没有传统标签,只有环境反馈给的奖励信号
强化学习的本质是“与环境试错”,在环境反馈中找到一个奖励最大化的动作序列,现在的gpt、kimi等大模型后训练过程是通过通过强化学习训练出来的。