【Hadoop】

【Hadoop】

【Hadoop】

大数据

等 7 人订阅共34篇文章创建于2021-08-06

【Flink】常用的DataSet和DataStream-API

目前截止 1.10 版本依然采用了 DataSet 和 DataStream 两套 API 来适配不同的应用场景。

4年前
664
3
评论

【Spark Streming】DStream转换操作

DStream 上的操作与 RDD 的类似, 分为 Transformations(转换) 和 Output Op

4年前
807
4
评论

【SparkSQL】数据抽象和类型

数据抽象 SparkSQL 提供了两个新的抽象, 分别是 DataFrame DataSet 同样的数据都给到这三个数据

4年前
384
3
评论

【Spark】RDD 广播变量和累加器

有时候需要在多个任务之间共享变量, 或者在任务(Task) 和 Driver Program 之间共享变量。为了

4年前
1.2k
3
评论

【Spark】RDD KV操作

RDD 整体上分为 Value 类型和 Key-Value 类型。之前介绍的是 Value的类型的 RDD

4年前
356
3
评论

【Spark】RDD分区

分区 spark.default.parallelism : (默认的并发数) = 2 当配置文件 spark-defa

4年前
793
4
评论

【Spark】RDD依赖关系

RDD 只支持粗粒度转换, 即在大量记录上执行的单个操作。将创建 RDD 的一系列 Lineage (血统)记录下

4年前
725
5
评论

RDD 的核心概念 RDD 是 Spark 最核心的数据结构，RDD（Resilient Distributed Dat

4年前
788
4
评论

【ClickHouse】MergeTree

案例，创建案例: 新增操作：在 /var/lib/clickhouse/data/default/mt_tree

4年前
823
4
评论

【ClickHouse】安装

`clickhouse-common-static` — `ClickHouse` 编译的二进制文件。 - `clickhouse-server` — 创建 `clickhouse-server` 软

4年前
1.3k
2
评论

【Hive】HQL 之 DQL

DQL -- Data Query Language 数据查询语言 select 语法: SQL 语句书写注意事项: SQL 语句对大小写

4年前
339
1
评论

【Hive】HQL 之 DDL

DDL(data definition language): 主要的命令有 CREATE、 ALTER、DROP 等。 DDL 主要是用在

4年前
448
1
评论

【Hive】数据类型与文件格式

基本类型 Hive 支持数据类型 `Hive` 中基本数据类型遵循以下层次结构, 按照这个层次结构, 子类型到祖先类型允许隐式转换。

4年前
856
1
评论

大白话 Hadoop

先简单了解下，Hadoop 由三个模块组成：分布式存储 HDFS 分布式计算 MapReduce 资源调度引擎 Yarn HD

4年前
652
4
评论