监督学习
通过从标记数据(包含输入与输出对的训练集)中学习来进行预测或分类。监督学习的主要目标是学习从输入到输出的映射关系,以便能够对新的、未见过的数据进行准确的预测。
特征和标签
特征(Features) :输入变量
标签(Labels) :输出变量
学习过程
- 模型选择:例如线性回归、逻辑回归、决策树、支持向量机、神经网络等。
- 损失函数:定义预测结果与真实标签之间的误差,常见的损失函数包括均方误差(MSE)、交叉熵损失等。
- 优化算法:用于调整模型参数以最小化损失函数,常用的优化算法包括梯度下降(Gradient Descent)及其变种。
- 线性回归(Linear Regression) :用于回归问题,找到输入特征与输出之间的线性关系。
- 逻辑回归(Logistic Regression) :用于分类问题,特别是二分类问题,通过sigmoid函数将线性组合的输入映射到0和1之间的概率。
- 决策树(Decision Tree) :可以用于分类和回归,通过构建树状模型决策过程。
- 支持向量机(SVM):用于分类,通过寻找最优超平面将数据分类。
- k近邻算法(k-Nearest Neighbors, kNN):分类和回归任务,通过测量样本之间的距离进行预测。
- 神经网络(Neural Networks) :强大的非线性模型,尤其在大数据和复杂任务(如图像和语音识别)中表现出色。
训练模型
通过训练数据迭代优化模型参数,逐步减少预测误差。
评估模型
使用测试集评估模型的性能,常用评估指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1得分等。
应用模型
将训练好的模型应用于实际数据,以进行预测或分类。
应用领域
- 图像识别:如手写数字识别、面部识别。
- 语音识别:如语音命令识别、语音转文字。
- 自然语言处理:如文本分类、情感分析。
- 医疗诊断:如疾病预测、医学影像分析。
- 金融预测:如股票价格预测、信用评分。
无监督学习
从没有标记的数据中学习数据的内在结构和模式。与监督学习不同,无监督学习没有明确的目标输出,因此模型必须自行发现数据的特征和规律。
数据集
只有输入数据
常见任务
- 聚类(Clustering) :将数据分组(簇),使得同一组内的数据点具有更高的相似性,不同组之间的数据点具有更大的差异。常见算法有k均值聚类(k-Means)、层次聚类(Hierarchical Clustering)和DBSCAN等。
- 降维(Dimensionality Reduction) :是一种数据预处理技术。降维的主要应用:数据可视化、数据压缩、降噪、特征提取。常见方法有主成分分析(PCA)、t-SNE和自编码器(Autoencoders)等。
- 异常检测(Anomaly Detection) :识别与大多数数据点显著不同的异常数据点。常用于欺诈检测、设备故障检测等领域。
- 关联规则学习(Association Rule Learning) :发现数据中的有趣关系,如购物篮分析中的商品购买关联。常见算法有Apriori和Eclat。
实际应用
- 图像处理:在处理高分辨率图像时,通过PCA或自编码器将图像数据降维,有助于降低计算成本和提升模型性能。
- 文本分析:在自然语言处理任务中,使用词向量表示的文本数据维度通常很高,使用降维方法如PCA可以简化文本表示,提升分类器的效果。
- 基因表达数据分析:基因表达数据通常具有成千上万的维度,通过降维技术如PCA或t-SNE,可以识别出关键基因和潜在的生物学模式。