人工智能和机器学习
人工智能(AI, Artificial Intelligence)
- 这是最广泛的概念,指的是使机器能够模拟人类智能行为的技术和研究领域。AI包括
理解语言、识别图像、解决问题等各种能力。
机器学习(ML, Machine Learning)
- 机器学习是实现人工智能的一种方法。它涉及到算法和统计模型的使用,使得计算机系统能够从数据中“学习”和改进任务的执行,而不是通过明确的编程来实现。机器学习包括多种技术,如
KNN、线性回归、逻辑回归、决策树、集成学习、聚类算法等。
深度学习(DL, Deep Learning)
- 深度学习是机器学习中的一种特殊方法,它使用称为
神经网络的复杂结构,特别是“深层”的神经网络,来学习和做出预测。深度学习特别适合处理大规模和高维度的数据,如图像、声音和文本。
机器学习常用术语
样本、特征、标签
样本(sample):一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录特征(feature):一列数据一个特征,有时也被称为属性。标签/目标(label/target):模型要预测的那一列数据。
数据集划分
- 数据集可划分两部分:
训练集、测试集,比例:8:2,7:3 训练集:用来训练模型的数据集测试集:用来测试模型的数据集
机器学习算法分类
有监督学习(有问题有答案)
- 输入数据是由输入
特征值和目标值所组成,即输入的训练数据有标签的 - 学习目标:学习特征 -> 标签的映射关系 -> 预测
- 经典算法:线性回归、逻辑回归、决策树、支持向量机
- 应用场景:预测、分类、估值
有监督分类问题 & 回归问题
-
分类问题:
目标值(标签值)是不连续的(有限的类别)- 分类种类:二分类、多分类
- 就业薪资只能是高中低
-
回归问题:
目标值是连续的(数值在一个范围内,可以是任意值)- 房价可以是0-1000任意值
无监督学习(有问题无答案)
- 输入数据没有被标记,即样本数据类别未知,
没有标签,根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。 - 学习目标:发现数据的内部结构(分组),用于洞察
- 经典算法: k-均值聚类、主成分分析(PCA)
- 应用场景: 市场细分、异常检测、数据压缩
无监督学习再举例
- 无监督学习特点:训练数据
无标签,根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系。 - 无监督学习核心过程就是
聚类,聚类的核心思想就是物以类聚、人与群分
半监督(部分样本有目标值、部分数据无目标值)
- 核心思想 :利用
少量标注数据与大量未标注数据共同作用 - 解决的
核心痛点:在实际的应用中,想获取大量高质量的数据成本极高,非常困难,而未标注的数据相对容易。 - 半监督的
学习目标:利用少量昂贵的标注数据作为“指导”,同时充分利用大量廉价的未标注数据中隐藏的结构信息,来训练一个比单纯使用少量数据更强大的模型。
工作原理
- 第一步:用标注数据初始化模型
- 过程:让领域专家动
手标注少量数据,利用这部分高质量的数据训练一个初始的预测模型 - 解读:相当于监督学习,目的是获得一个具备基础判断能力的
“初步模型”
- 过程:让领域专家动
- 第二步:用模型预测未标注数据
- 过程:使用上一步训练好的初始模型,去预测那些大量
未标注的数据,并为他们打上“伪标签” - 解读:模型将其从少量标注数据中
学习到的规律,推广到未标注数据上,视图“猜测”这些数据的标签
- 过程:使用上一步训练好的初始模型,去预测那些大量
- 第三步:专家介入与模型改进
- 过程:将模型预测的结果(伪标签)与领域专家的判断
进行对比。 - 对于模型预测置信度高且正确的样本:可以将其(数据+伪标签)
加入训练集,以扩充标注数据 - 对于模型预测置信度低或者专家认为错误的样本:由专家进行
纠正,并将纠正的正确样本加入训练集 - 解读:这是半监督学习的核心,通过
“模型预测”和“专家验证”的交互,不断的筛选出有价值的样本进行标注,以最高效的方式提升标注数据的规模和质量,从而迭代的改进模型。
- 过程:将模型预测的结果(伪标签)与领域专家的判断
强化学习
- 强化学习:机器学习的一个重要分支
- 应用场景:里程碑AplhaGo围棋、各类游戏、对抗比赛、无人驾驶场景
- 强化学习与监督学习和无监督学习有根本不同,他的灵感来自于
人类的学习方式:通过“试错”并根据行为后果“奖励”来学习,目标是让一个智能体在一系列决策中,学会采取能够获得长期最大累计奖励的行为策略。 - 举例:
智能体:学习的主题,也是策略者(游戏中的玩家,自动驾驶汽车)环境:智能体所处与之交互的外部世界(围棋棋盘,游戏场景,道路)行动:智能体在特定时刻可以执行的活动(如移动一步,落子,转动方向盘)奖励:环境反馈给智能体的一个标准值,用于评价刚刚执行的动作好坏(如得分,获胜/失败信号)
- 工作流程:
- 在时刻t,智能体
观察当前的环境St - 基于当前的状态St和自身的策略,智能体
选择执行一个行动A - 环境因智能体的行动而改变,进入一个
新的状态St+1 - 环境给予智能体一个
奖励Rt+1(可能是正奖励,也可能是负奖励) - 智能体根据获得的奖励来
评估刚才行动的好坏,并```更新其决策策略````。 - 然后循环回到步骤1,持续进行。
- 在时刻t,智能体
- 这个循环的终极目标是:
让智能体学会一个策略,这个策略就是指导它在任何状态下选择行动,使得从长远来看所获得的累积奖励(总回报)最大化。
机器学习算法分类总结
机器学习建模流程
- 获取数据:收集用于训练模型的原始数据
- 内容:数据可以是来自于多种渠道,可以是图像数据,也可以是用户行为数据,也可以是数据库数据等。
- 数据基本处理:清洗和整理数据,使其满足后续分析的要求
- 内容:数据缺失值处理和异常值处理
- 特征工程:从原始数据中提取和构建对预测目标最有用的信息(特征)
- 内容:特征提取、特征预处理
- 机器学习:(模型训练)使用处理好的数据来训练一个预测模型
- 内容:“机器学习”的核心步骤,根据问题类型(分类、回归)选择合适的算法让算法从“特征”和“标签”中学习瑰丽
- 模型评估:客观的衡量训练好的模型在未知数据上的表现。
有监督学习模型训练和模型预测
- 训练:从数据中学习规律
- 输入:原始数据(文档、图片、用户信息等)
- 特征提取:提取原始数据转化为计算机能够理解的,数值化的信息,即特征想了
- 机器学习算法:这是学习的单,算法接收两部分
- 特征向量:描述了每个样本的属性
- 标签:每个样本对应的真实结果和类别(例如,邮件是“垃圾邮件”还是“正常邮件”)
- 输出:训练过程的最终产物是一个训练好的模型(classifier model)这个模型本质上是一个数学函数,它封装了从“特征”到“标签”的最佳映射关系。
- 预测:根据模型解决新的问题
- 根据模型解决新的问题
- 输入:新的,未标记的原始数据(一封新的邮件)
- 特征提取:与训练阶段需要完全一致,必须使用相同的方法将新数据转化为相同格式的特征向量,为了保证模型处理的数据与其学习时看到的数据格式一致。
- 分类器模型:这是训练阶段的最终产物,现在可以被投入使用,他将新数据的特性向量作为输入
- 输出:模型根据训练阶段学习到的规律,计算出一个预测的标签。
- 根据模型解决新的问题
特征工程概念入门
- 特征工程
- 利用专业
背景知识和技巧处理数据,让技巧学习算法效果最好。这个过程就是特征工程。 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
- 利用专业
涉及内容
- 特征提取
- 原始数据中提取与任务相关的
特征,构造特征向量。 - 根据图片提出特征,比如每朵不再用图片表示,而是使用一个四维特征向量来表示,从而可以进行数学模型处理。
- 原始数据中提取与任务相关的
- 特征预处理
- 清洗和标准特征
- 清洗:缺失值处理
标准化特征:将不同尺寸的特征(收入(万)和年龄(百岁内))转化成一个相同的尺寸,避免某些特征因为值过大从而主导了模型的训练。
- 特征降纬
简化数据,保留精华,在尽可能保留大部分有用信息的前提下,减少特征的数量,从而减少计算开销。
- 特征选择
筛选有用的特征,从所有特征中,挑选出对预测目标最相关的,最重要的一个特征子集。
- 特征组合
创造新的特征,将两个或多个现有特征进行组合(如相乘、相除),生成新的特征,以捕获特征之间的交互作用。
拟合
- 指的是机器学习模型对训练数据的
匹配程度,我们目标不是完美的拟合训练数据,而是构建一个能够很好的泛化到未知数据的模型,欠拟合和过拟合是模型训练中需要避免的两种不良状态。 - 拟合
- 在机器学习领域,用来表示
模型对样本点的拟合情况
- 在机器学习领域,用来表示
- 欠拟合
- 模型在训练集上表现
很差,在测试集表现也很差 - 模型过于简单,只需要了非常少且表面的特征
- 模型在训练集上表现
- 过拟合
- 模型在训练集上表现
很好,在测试集表现很差 - 模型过于复杂、数据不纯、训练数据太少
- 模型在训练集上表现