机器学习(1)-监督学习与非监督学习

用户1134903302245

2024-05-28 165 阅读3分钟

监督学习

通过从标记数据（包含输入与输出对的训练集）中学习来进行预测或分类。监督学习的主要目标是学习从输入到输出的映射关系，以便能够对新的、未见过的数据进行准确的预测。

特征和标签

特征（Features）：输入变量

标签（Labels）：输出变量

学习过程

模型选择：例如线性回归、逻辑回归、决策树、支持向量机、神经网络等。
损失函数：定义预测结果与真实标签之间的误差，常见的损失函数包括均方误差（MSE）、交叉熵损失等。
优化算法：用于调整模型参数以最小化损失函数，常用的优化算法包括梯度下降（Gradient Descent）及其变种。

线性回归（Linear Regression）：用于回归问题，找到输入特征与输出之间的线性关系。
逻辑回归（Logistic Regression）：用于分类问题，特别是二分类问题，通过sigmoid函数将线性组合的输入映射到0和1之间的概率。
决策树（Decision Tree）：可以用于分类和回归，通过构建树状模型决策过程。
支持向量机（SVM）：用于分类，通过寻找最优超平面将数据分类。
k近邻算法（k-Nearest Neighbors, kNN）：分类和回归任务，通过测量样本之间的距离进行预测。
神经网络（Neural Networks）：强大的非线性模型，尤其在大数据和复杂任务（如图像和语音识别）中表现出色。

训练模型

通过训练数据迭代优化模型参数，逐步减少预测误差。

评估模型

使用测试集评估模型的性能，常用评估指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1得分等。

应用模型

将训练好的模型应用于实际数据，以进行预测或分类。

应用领域

图像识别：如手写数字识别、面部识别。
语音识别：如语音命令识别、语音转文字。
自然语言处理：如文本分类、情感分析。
医疗诊断：如疾病预测、医学影像分析。
金融预测：如股票价格预测、信用评分。

无监督学习

从没有标记的数据中学习数据的内在结构和模式。与监督学习不同，无监督学习没有明确的目标输出，因此模型必须自行发现数据的特征和规律。

数据集

只有输入数据

常见任务

聚类（Clustering）：将数据分组（簇），使得同一组内的数据点具有更高的相似性，不同组之间的数据点具有更大的差异。常见算法有k均值聚类（k-Means）、层次聚类（Hierarchical Clustering）和DBSCAN等。
降维（Dimensionality Reduction）：是一种数据预处理技术。降维的主要应用：数据可视化、数据压缩、降噪、特征提取。常见方法有主成分分析（PCA）、t-SNE和自编码器（Autoencoders）等。
异常检测（Anomaly Detection）：识别与大多数数据点显著不同的异常数据点。常用于欺诈检测、设备故障检测等领域。
关联规则学习（Association Rule Learning）：发现数据中的有趣关系，如购物篮分析中的商品购买关联。常见算法有Apriori和Eclat。

实际应用

图像处理：在处理高分辨率图像时，通过PCA或自编码器将图像数据降维，有助于降低计算成本和提升模型性能。
文本分析：在自然语言处理任务中，使用词向量表示的文本数据维度通常很高，使用降维方法如PCA可以简化文本表示，提升分类器的效果。
基因表达数据分析：基因表达数据通常具有成千上万的维度，通过降维技术如PCA或t-SNE，可以识别出关键基因和潜在的生物学模式。

Jupyter Notebooks

jupyter-notebook.readthedocs.io/en/latest/