大数据技术栈 - thewayma123的收藏集 - 掘金

大数据技术栈

更多收藏集

6篇文章 · 0订阅

快速搞懂湖仓一体发展历程：错过它，你将失去下一个大数据风口！

本文介绍了数据湖仓一体架构的发展历程和优势。从OLAP数据库及其限制出发，阐述了第一代数据仓库、基于Hive的数据仓库、MPP架构和其他计算引擎、数据湖、数据湖表格式以及数据湖仓的出现和发展。最后总结

shengjk1
11月前
242
点赞
评论

快速搞懂湖仓一体发展历程：错过它，你将失去下一个大数据风口！

大数据-80 Spark 从 MapReduce 到 Spark：大数据处理引擎的三代演进全景解析

Spark 是继 MapReduce 和 Hive 之后的新一代大数据处理引擎，凭借内存计算、DAG 执行引擎、统一的生态系统和卓越的兼容性，成为当前主流的大数据分析平台。

武子康
6月前
176
2
评论

大数据-80 Spark 从 MapReduce 到 Spark：大数据处理引擎的三代演进全景解析

2025大数据常用架构体系

✅ 二、新趋势与推荐组件（按层次） 1. 数据采集层 ✅ Apache Kafka：事实标准，超高吞吐，生态成熟。 🔄 Apache Pulsar：分布式特性好、支持多租户，但生态不如 Kafka 成

vi_h
10月前
1.9k
20
5

入门Hadoop存储与计算：实现单词统计的分布式文件处理系统

入门Hadoop存储与计算：实现单词统计的分布式文件处理系统引言在当今数字化时代，数据量呈爆炸式增长，传统的数据处理和存储技术已经难以应对这种规模的数据企业和研究机构迫切需要一种高效、可扩展且可

菜菜的后端私房菜
1年前
557
8
1

入门Hadoop存储与计算：实现单词统计的分布式文件处理系统

Hadoop的工作原理是什么？如何搭建一套分布式文件系统？

Hadoop是什么？它是如何工作的？为什么 Hadoop可以成为全球最流行的大数据处理框架之一？如何基于 Hadoop搭建一套简单的分布式文件系统？

猿java
1年前
3.0k
51
35

Hadoop的工作原理是什么？如何搭建一套分布式文件系统？

StreamPark 构建指南（mac 版）

StreamPark 项目构建指南一、环境准备 1.1 环境要求 JDK: 1.8+ Maven: 3.6+ Node.js: 14+ 1.2 环境验证命令二、获取源码三、构建过程 3.1 初始

Charon939
1年前
509
点赞
评论