首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 37 人订阅
共275篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-278 Spark MLib-GBDT梯度提升决策树详解:从原理到实战案例
GBDT是Boosting家族的核心算法,通过多棵决策树逐步拟合残差来减少预测误差。2024年主流版本如XGBoost、LightGBM均基于此思想扩展。本文以身高预测为案例,详解初始化学习器(均值)
大数据-277 Spark MLib-梯度提升树(GBDT)算法原理与工程实现指南
梯度提升树(GBDT,Gradient Boosting Decision Tree)是机器学习领域最成功的集成学习算法之一。本文系统讲解提升树到梯度提升树的演进路径,深入剖析GBDT的算法原理:如何
大数据-276 Spark MLib-深入理解Bagging与Boosting:集成学习核心算法对比与GBDT实战
本文深入对比Bagging与Boosting两大集成学习范式的核心差异,从数据采样、投票机制、学习顺序三大维度系统解析。Bagging通过数据采样和平权投票解决过拟合问题,Boosting通过调整样本
大数据-275 Spark MLib-集成学习:从Bagging到Boosting的群体智慧
集成学习是机器学习中提升模型泛化能力的核心技术,2024年仍广泛应用于Kaggle竞赛与工业生产。通过构建多个弱分类器并进行投票或加权组合,相比单模型可显著提升稳定性与鲁棒性。本文详解Bagging
大数据-273 Spark MLib-决策树分类算法详解:ID3、C4.5、CART 与剪枝原理
决策树作为机器学习最经典的监督学习算法之一,广泛应用于分类与回归任务。本文详解 ID3、C4.5、CART 三种主流决策树算法的分裂准则(信息增益、信息增益率、基尼系数),以及条件熵、信息增益的计算原
大数据-272 Spark MLib-Spark MLlib 逻辑回归实战:二分类场景下的原理与代码实现
本文深入讲解 Spark MLlib 中逻辑回归(Logistic Regression)的原理与实战应用。逻辑回归是机器学习中经典的二分类算法,以其简单高效的特点广泛应用于广告点击率预测、垃圾邮件识
大数据-271 Spark MLib-基础线性回归详解:从原理到损失优化实战
线性回归是机器学习中最基础的有监督学习算法,用于预测连续值输出。本文详解线性回归的定义、公式与几何意义,涵盖单变量与多变量线性关系、非线性关系分析。重点阐述损失函数(最小二乘法)的原理,以及两种优化算
大数据-270 Spark MLib-机器学习库快速入门(分类/回归/聚类/推荐)
Spark MLlib 是 Apache Spark 的机器学习库,2026年最新版本支持分布式机器学习算法训练。本文介绍 Spark MLlib 环境配置、pyspark 编程基础,以及分类算法(决
大数据-269 实时数仓-Flink+HBase+DIM层数据处理实战:构建地区维度数据仓库
基于 Flink 流处理与 HBase 构建 DIM 层维度数据仓库的完整方案。通过 HBaseReader 从原始 MySQL 地区表读取数据,利用 StreamTableEnvironment 执
大数据-268 实时数仓-ODS 层 Flink+Kafka+HBase实时流处理:Kafka数据写入维度表实战
本文介绍如何使用Flink将Kafka中的业务数据实时写入HBase维度表。内容涵盖Kafka消费者创建、数据解析转换、维度表设计原则(主键、增量更新策略)、HBase连接管理及RichSinkFun
大数据-267 实时数仓-架构演进:Lambda与Kappa架构实战指南
聚焦Lambda架构与Kappa架构的核心差异与实践。Lambda架构通过批处理层和速度层分离实现离线与实时计算融合,但需维护两套代码,运维成本较高。Kappa架构采用批流合一方案,以Flink为代表
大数据-266 实时数仓-Canal + Kafka 实现 MySQL 数据库变更实时捕获
Canal 是阿里巴巴开源的 MySQL binlog 增量订阅与消费平台,通过解析 MySQL 二进制日志实现数据库变更捕获(CDC)。Kafka 是高吞吐量的分布式消息系统,常用于实时数据流处理。
大数据-265 实时数仓-Canal MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL Binlog(二进制日志)是数据库变更追踪的核心机制,本文详解 2026 年最新 MySQL 8.0 环境下 binlog 的配置方法与工作原理。涵盖 binlog 三大日志格式(STAT
大数据-264 实时数仓-MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL Binlog(二进制日志)是数据库变更追踪的核心机制,本文详解 2026 年最新 MySQL 8.0 环境下 binlog 的配置方法与工作原理。涵盖 binlog 三大日志格式(STAT
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
Canal 是阿里巴巴开源的 MySQL 数据库 binlog 增量订阅与消费组件,本文详解其工作原理、核心概念及 MySQL binlog 配置方法。Canal 模拟 MySQL 从库行为,通过 C
大数据-262 实时数仓 - Canal 同步数据实战指南 实时统计
Canal 是阿里巴巴开源的变更数据捕获(CDC)中间件,通过解析 MySQL Binlog 实现增量数据实时同步。本文详解 Canal 的核心功能、工作原理、部署配置及典型应用场景,包括数据仓库同步
大数据-261 实时数仓-建设指南:从架构设计到业务落地 交易订单、订单产品、产品分类、商家店铺、地域组织表
实时数仓是一种区别于传统批处理数仓的数据仓库系统,强调低延迟、高吞吐和高可用性。2024年实时数仓建设成为企业数据平台升级的重点方向,支持秒级甚至毫秒级的数据处理能力。本文深入讲解实时数仓的关键特性(
大数据-260 实时数仓 - 项目实时数仓架构设计:从离线到实时的数据体系演进
实时数据仓库是应对互联网、物联网数据时效性需求的关键基础设施。本文系统介绍实时数仓的架构设计,包括与离线数仓的对比、分层架构(收集层、存储层、引擎层、平台层、应用层)、技术选型(Flume、Canal
大数据-259 离线数仓 - Apache Griffin 0.5.0 大数据质量平台:从配置到部署完整指南
Griffin 0.5.0 版本,详细介绍在 CentOS + Hadoop 3.x + Spark 2.x + MySQL 8 + ElasticSearch 7.x 环境下的完整部署流程:包括
大数据-258 离线数仓 - Livy与Griffin编译安装指南:大数据环境配置实战
Apache Livy 0.5.0和Apache Griffin 0.5.0在Hadoop 2.9.2集群上的编译安装与配置过程。Livy作为Apache Spark的REST接口,支持通过HTTP
下一页