【Hadoop】

【Hadoop】

【Hadoop】

大数据

等 7 人订阅共34篇文章创建于2021-08-06

【ES】图解原理

0. 认识倒排索引正排索引 VS 倒排索引：倒排索引包括两个部分：单词词典（Term Dictio

4年前
270
4
评论

【Flink】FlinkSQL和Table编程案例

Flink SQL & Table 背景和原理动态表的概念常用SQL和内置函数为什么需要关系型 API

4年前
956
2
1

【Flink】常用的DataSet和DataStream

目前截止 1.10 版本依然采用了 DataSet 和 DataStream 两套 API 来适配不同的应用

4年前
201
3
评论

CEP（Complex Event Processing）复杂事件处理, Flink CEP 是在 Flin

4年前
360
3
评论

【Flink】SideOutPut分流

Flink 中提供的一个很重要的功能：旁路分流器。分流场景：在生产实践中经常会遇到这样的场景，需把输入源按

4年前
184
4
评论

【Flink】状态与容错

状态，其实指的是 Flink 程序的中间计算结果。 Flink 根据是否需要保存中间结果, 把计算分为有状态

4年前
469
5
评论

【Flink】窗口和时间

Flink的窗口（TimeWindow）通俗讲：Window 是用来对一个无限的流设置一个有限的集合, 从而在有

4年前
1.1k
5
评论

【Flink】单词统计

准备工作需求：统计一个文件中各个单词出现的次数, 把统计结果输出到文件, 步骤: 读取数据源处理数据源将读到

4年前
629
3
评论

【Flink】水印

当在流式计算环境中数据从 Source 产生，再到转换和输出，这个过程由于网络和反压的原因会导致消息乱序。

4年前
952
4
评论

【HBase】预分表和region合并

「这是我参与2022首次更文挑战的第16天，活动详情查看：2022首次更文挑战」一、为何要预分区? 当一个 table 刚被创建的时候, Hbase 默认的分配一个 region 给 table。

4年前
427
3
评论

【HBase】数据模型与架构

HBase 基于 Google 的 BigTable 论文而来, 是一个分布式海量列式非关系型数据库系统,可以提供超大规模数据集的实时随机读写。

4年前
628
4
评论

【HBase】协处理器

访问 HBase 的方式是使用 scan 或 get 获取数据, 在获取到的数据上进行业务运算。客户端也需要有强大的计算能力以及足够的内存来处理这么多的数据。

4年前
1.1k
6
评论

【Druid】架构原理

Druid 总体包含以下 6 类节点: Coordinator node: 主要负责历史节点的数据负载均衡,

4年前
984
2
评论

【Kylin】构建 Cube

准备数据维度表的优化：要具有数据一致性, 主键值必须是唯一的(否则 Kylin 构建过程会报错) 维度表越小越好,

4年前
669
3
评论

【Kylin】安装

依赖环境需要软件如下：软件版本 Hive 2.3.7 Hadoop 2.9.2 HBase 1.3.1 Zooke

4年前
397
3
评论

【Kylin】初识

Apache Kylin, 一种 MOLAP 的数据分析引擎。 Kylin 提供多维数据分析(MOLAP)的秒级响

4年前
1.9k
4
评论

【Azkaban】安装multiple-executor

准备工作节点划分如下：（1）编译选用 azkaban3.51.0 这个版本自己进行重新编译，编译完成之后得到需要的

4年前
726
5
评论

【Azkaban】使用方式

shell command 调度创建 job 描述文件将 job 资源文件打包成 zip 文件通过 azkaban

4年前
215
3
评论

【Impala】使用 SQL

数据库语句创建数据库删除数据库二、表特定语句 create table 语句 insert 语句 select 语

4年前
595
3
评论

【Impala】架构原理

组件 Impala 是一个分布式, 大规模并行处理(MPP)数据库引擎, 它包括多个进程。 Impala 与 Hive

4年前
1.4k
3
评论