首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 36 人订阅
共269篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-271 Spark MLib-基础线性回归详解:从原理到损失优化实战
线性回归是机器学习中最基础的有监督学习算法,用于预测连续值输出。本文详解线性回归的定义、公式与几何意义,涵盖单变量与多变量线性关系、非线性关系分析。重点阐述损失函数(最小二乘法)的原理,以及两种优化算
大数据-270 Spark MLib-机器学习库快速入门(分类/回归/聚类/推荐)
Spark MLlib 是 Apache Spark 的机器学习库,2026年最新版本支持分布式机器学习算法训练。本文介绍 Spark MLlib 环境配置、pyspark 编程基础,以及分类算法(决
大数据-269 实时数仓-Flink+HBase+DIM层数据处理实战:构建地区维度数据仓库
基于 Flink 流处理与 HBase 构建 DIM 层维度数据仓库的完整方案。通过 HBaseReader 从原始 MySQL 地区表读取数据,利用 StreamTableEnvironment 执
大数据-268 实时数仓-ODS 层 Flink+Kafka+HBase实时流处理:Kafka数据写入维度表实战
本文介绍如何使用Flink将Kafka中的业务数据实时写入HBase维度表。内容涵盖Kafka消费者创建、数据解析转换、维度表设计原则(主键、增量更新策略)、HBase连接管理及RichSinkFun
大数据-267 实时数仓-架构演进:Lambda与Kappa架构实战指南
聚焦Lambda架构与Kappa架构的核心差异与实践。Lambda架构通过批处理层和速度层分离实现离线与实时计算融合,但需维护两套代码,运维成本较高。Kappa架构采用批流合一方案,以Flink为代表
大数据-266 实时数仓-Canal + Kafka 实现 MySQL 数据库变更实时捕获
Canal 是阿里巴巴开源的 MySQL binlog 增量订阅与消费平台,通过解析 MySQL 二进制日志实现数据库变更捕获(CDC)。Kafka 是高吞吐量的分布式消息系统,常用于实时数据流处理。
大数据-265 实时数仓-Canal MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL Binlog(二进制日志)是数据库变更追踪的核心机制,本文详解 2026 年最新 MySQL 8.0 环境下 binlog 的配置方法与工作原理。涵盖 binlog 三大日志格式(STAT
大数据-264 实时数仓-MySQL Binlog配置详解:从原理到实践|数据恢复与主从复制实战
MySQL Binlog(二进制日志)是数据库变更追踪的核心机制,本文详解 2026 年最新 MySQL 8.0 环境下 binlog 的配置方法与工作原理。涵盖 binlog 三大日志格式(STAT
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
Canal 是阿里巴巴开源的 MySQL 数据库 binlog 增量订阅与消费组件,本文详解其工作原理、核心概念及 MySQL binlog 配置方法。Canal 模拟 MySQL 从库行为,通过 C
大数据-262 实时数仓 - Canal 同步数据实战指南 实时统计
Canal 是阿里巴巴开源的变更数据捕获(CDC)中间件,通过解析 MySQL Binlog 实现增量数据实时同步。本文详解 Canal 的核心功能、工作原理、部署配置及典型应用场景,包括数据仓库同步
大数据-261 实时数仓-建设指南:从架构设计到业务落地 交易订单、订单产品、产品分类、商家店铺、地域组织表
实时数仓是一种区别于传统批处理数仓的数据仓库系统,强调低延迟、高吞吐和高可用性。2024年实时数仓建设成为企业数据平台升级的重点方向,支持秒级甚至毫秒级的数据处理能力。本文深入讲解实时数仓的关键特性(
大数据-260 实时数仓 - 项目实时数仓架构设计:从离线到实时的数据体系演进
实时数据仓库是应对互联网、物联网数据时效性需求的关键基础设施。本文系统介绍实时数仓的架构设计,包括与离线数仓的对比、分层架构(收集层、存储层、引擎层、平台层、应用层)、技术选型(Flume、Canal
大数据-259 离线数仓 - Apache Griffin 0.5.0 大数据质量平台:从配置到部署完整指南
Griffin 0.5.0 版本,详细介绍在 CentOS + Hadoop 3.x + Spark 2.x + MySQL 8 + ElasticSearch 7.x 环境下的完整部署流程:包括
大数据-258 离线数仓 - Livy与Griffin编译安装指南:大数据环境配置实战
Apache Livy 0.5.0和Apache Griffin 0.5.0在Hadoop 2.9.2集群上的编译安装与配置过程。Livy作为Apache Spark的REST接口,支持通过HTTP
大数据-257 离线数仓 - 数据质量监控详解:从理论到Apache Griffin实践
深入解析数据质量监控的核心维度(准确性、完整性、一致性、有效性等),探讨企业数据治理面临的主要挑战(数据不一致、不完整、不合规、冗余),并提供基于Apache Griffin的批处理与流处理数据质量检
大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入
Apache Atlas 1.2.0 的数据仓库元数据管理实战方案。元数据是描述数据的数据,包括表结构、存储统计、血缘关系、业务属性等核心信息。Atlas 是开源的元数据与血缘管理平台,支持 Hive
大数据-255 离线数仓 - Apache Atlas 数据血缘与元数据管理实战指南
Apache Atlas 实战部署。元数据管理是数据治理的基础,涉及表结构信息、空间存储、血缘关系及业务属性信息的收集与展示。Apache Atlas 作为 Hadoop 平台元数据框架,支持数据血缘
大数据-254 离线数仓 - Airflow 任务调度与工作流管理实战
Apache Airflow 是开源任务调度和工作流管理工具,2016 年捐赠给 Apache 软件基金会。以 Python 代码定义 DAG(有向无环图),提供灵活性、可编程性和强大的 UI 监控界
大数据-253 离线数仓 - Airflow 入门与任务调度实战:DAG、Operator、Executor 部署排错指南
DAG、Operator、Task、Task Instance、Executor 等核心概念,并通过一个 HelloWorldDag 示例演示 Airflow 的基础使用流程,包括 DAG 脚本编写、
大数据-252 离线数仓 - Airflow + Crontab 入门实战:定时调度、DAG 编排与常见报错排查
Linux Crontab 与 Apache Airflow 的基础用法、差异定位与工程实践。内容覆盖 Crontab 表达式格式、常见定时配置实例、Airflow DAG/Task/Operator
下一页