首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 36 人订阅
共275篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-217 Prometheus 2.53.2 安装与配置实战:Scrape Targets、Exporter、告警链路与常见故障速查
Prometheus 2.53.2(2025/2026 仍常见在存量环境)**给出一套可复用的落地流程:在监控机下载并解压二进制,编写 prometheus.yml 完成 scrape_interva
大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_init/random_state 版本坑(sc
KMeans 选 n_clusters 方法:在候选簇数(如 2/4/6/8)上计算 silhouette_score 与 silhouette_samples,结合轮廓系数分布图与聚类散点图判断最优
大数据-215 sklearn KMeans 关键属性与评估:cluster_centers_、inertia_、轮廓系数选 K 实战
scikit-learn(sklearn)KMeans(2026)解释三个最常用对象:cluster_centers_(聚类中心)、inertia_(簇内平方和/Within-Cluster Sum
大数据-214 K-Means 聚类实战:自写算法验证 + sklearn KMeans 参数/labels_/fit_predict 速通
K-Means 聚类给出一套“可验证、可复现、可排错”的工程化流程:先用二维 testSet 数据集做算法验证(pd.read_table 读取、追加虚拟标签列、plt.scatter 可视化、绘制质
大数据-213 Python 手写 K-Means 聚类实战(鸢尾花 Iris 数据集):从距离函数到迭代收敛与坑点
Python K-Means 聚类实现:基于 NumPy 广播计算欧式距离平方和(distEclud),在特征范围内均匀采样初始化质心(randCent),并使用 Pandas 统一容器 result
大数据-212 K-Means 聚类实战指南:从无监督概念到 Inertia、K 值选择与避坑
聚类算法 K-Means,梳理监督学习与无监督学习的差异(是否需要标签 Y),并给出聚类在客户细分、RFM 分析、图像/语音/视频压缩、异常检测等工程场景的落地路径。重点解释 K-Means 的关键概
大数据-211 逻辑回归的 Scikit-Learn 实现:max_iter、分类方式与多元回归的优化方法
Scikit-Learn 中使用逻辑回归时,max_iter 控制最大迭代次数,影响模型的收敛速度和精度。如果训练未收敛,可能会收到警告提示需要增大 max_iter。不过,过高的迭代次数可能导致过拟
大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解(L1与L2)
但随着C的逐渐变大,正则化的强度越来越小,模型在训练集和测试集上表现呈现了上升趋势,直到C=0.8左右,训练集上的表现依然走高,但模型在未知数据集上的表现就开始下跌,这时候就是出现了过拟合。正则化参数
大数据-209 深度理解逻辑回归(Logistic Regression)与梯度下降优化算法
逻辑回归(Logistic Regression, LR)是机器学习中重要的分类算法,广泛应用于二元分类任务,如情感分析、疾病预测、垃圾邮件检测等场景。尽管其名字中有“回归”二字,实则是一种分类方法。
大数据-208 岭回归与Lasso回归:区别、应用与选择指南
岭回归(Ridge Regression)和Lasso回归(Lasso)是两种常用的线性回归正则化方法,用于解决机器学习中的过拟合和多重共线性问题。岭回归通过L2正则化项压缩回归系数,但不将其归零,适
大数据-207 如何应对多重共线性:使用线性回归中的最小二乘法时常见问题与解决方案
TL;DR 在使用最小二乘法求解线性回归时,多重共线性会影响模型稳定性,导致系数估计不可靠。解决方法包括使用正则化技术(如岭回归、Lasso回归)。通过引入正则化项,可以有效避免矩阵不可逆问题,稳定
大数据-206 用 NumPy 矩阵乘法手写多元线性回归:正规方程、SSE/MSE/RMSE 与 R²
pandas DataFrame 与 NumPy 矩阵乘法手写多元线性回归(线性回归实现)。核心思路是将特征矩阵 X(包含一列全 1 作为截距)与标签 y 组成正规方程,通过 w=(X^TX)
大数据-205 线性回归的机器学习视角:矩阵表示、SSE损失与最小二乘
线性回归(Linear Regression)的核心链路:用矩阵形式统一表示预测函数 y=Xw,将参数向量 w 作为唯一未知量;以损失函数刻画拟合误差,重点解释 SSE(残差平方和/误差平方和)
大数据-204 混淆矩阵到ROC:不平衡二分类评估指标全梳理 sklearn
混淆矩阵(TP、FP、FN、TN)建立统一口径,解释 Accuracy、Precision(查准率)、Recall(查全率/敏感度)、F1 Measure 的业务含义:Precision 对应“误伤
大数据-203 scikit-learn 决策树剪枝参数:max_depth/min_samples_leaf 到 min_impurity_decrease
scikit-learn 决策树剪枝(预剪枝)在工程落地中的常用参数:max_depth、min_samples_leaf、min_samples_split、max_features、min_imp
大数据-202 sklearn 决策树实战:criterion、Graphviz 可视化与剪枝防过拟合
DecisionTreeClassifier 在 load_wine 数据集完成从数据拆分、建模评估到决策树可视化的完整流程(2026 版)。重点解释 criterion 的选择:gini(基尼不纯度
大数据-201 决策树从分裂到剪枝:信息增益/增益率、连续变量与CART要点
“分裂”到“剪枝”的完整链路,解释其为何通常采用贪心算法形成“局部最优”,以及不同算法在分裂准则上的差异:ID3/C4.5偏信息增益(Information Gain),但信息增益会偏向取值多的特征
大数据-200 决策树信息增益详解:信息熵、ID3 选特征与 Python 最佳切分实现
决策树信息增益(Information Gain)”展开,先用信息熵(Entropy)解释不纯度,再说明为何在节点切分时要最大化父节点熵与子节点熵之差:在 Ent(D) 固定的前提下,最大化 Gain
大数据-199 决策树模型详解:节点结构、条件概率视角与香农熵计算
决策树模型(Decision Tree)展开,面向分类任务系统梳理:树的三类节点(根节点/内部节点/叶节点)、从根到叶的递归分裂流程,以及“分而治之”的规则生成机制。在理论层面,给出决策树的条件概率分
大数据-198 KNN 必须先归一化:Min-Max 正确姿势、数据泄露陷阱与 sklearn 落地
scikit-learn(1.x)机器学习训练流程中,KNN 这类距离模型对“量纲不统一”极其敏感:欧式距离的平方和会让数值尺度更大的特征主导距离,从而显著拖垮分类效果。Min-Max 归一化
下一页