大数据 - chengwp的收藏集 - 掘金

大数据

更多收藏集

9篇文章 · 0订阅

Hive 系列（五）—— Hive 分区表和分桶表

Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的…

zed
5年前
1.1k
3
1

Hadoop和大数据：60款顶级开源工具

这回我们推出了最新的顶级开源大数据工具排行榜。这个领域最近方兴未艾，许多新项目纷纷启动。许多最知名的项目由Apache基金会管理，与Hadoop密切相关。请注意：本文不是要搞什么排名；相反，项目按类别加以介绍。与往常一样，要是你知道另外的开源大数据及/或Hadoop工具应该榜

勿忘初心321
8年前
5.3k
71
评论

Spark 快速入门教程

该入门教程搭配了在线环境，可以直接在线体验 spark。Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。本教程从核心组件、体系结构、安装部署方面做了介绍。

实验楼
8年前
18k
60
评论

Hive 基础教程

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉…

爱Rap篮球写代码的蔡徐
6年前
14k
31
评论

压缩：GZIP,LZO,Snappy,Bzip2... hive.exec.reducers.bytes.per.reducer 这个参数控制一个job会有多少个reducer来处理，依据的是输入文件的总大小。默认1GB。（即每个reduce任务处理的数据量。） hive.ex…

Meet相识
7年前
2.5k
6
评论

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

程序员必备的「大数据入门」知识

这篇文章主要是入门大数据，不涉及到高深的知识点和理论，我相信每个人都看得懂。如果文章有错误的地方，不妨在评论区友善指出~ 我有的时候给外行人讲解什么是数据库，就常常用Excel来举例子(因为大多数人认识什么是Excel)。在知乎有一个类似的题目《有excel了要数据库干啥？》，…

Java3y
6年前
3.5k
47
8

大数据相关开源项目汇总

大数据相关开源项目汇总

非典程序猿
8年前
2.9k
75
评论