首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
【Hadoop】
格格步入
创建于2021-08-06
订阅专栏
大数据
等 7 人订阅
共34篇文章
创建于2021-08-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【ES】图解原理
0. 认识倒排索引 正排索引 VS 倒排索引: 倒排索引包括两个部分: 单词词典(Term Dictio
【Flink】FlinkSQL和Table编程案例
Flink SQL & Table 背景和原理 动态表的概念 常用SQL和内置函数 为什么需要关系型 API
【Flink】常用的DataSet和DataStream
目前截止 1.10 版本依然采用了 DataSet 和 DataStream 两套 API 来适配不同的应用
【Flink】CEP
CEP(Complex Event Processing)复杂事件处理, Flink CEP 是在 Flin
【Flink】SideOutPut分流
Flink 中提供的一个很重要的功能:旁路分流器。 分流场景:在生产实践中经常会遇到这样的场景,需把输入源按
【Flink】状态与容错
状态,其实指的是 Flink 程序的中间计算结果。 Flink 根据是否需要保存中间结果, 把计算分为有状态
【Flink】窗口和时间
Flink的窗口(TimeWindow) 通俗讲:Window 是用来对一个无限的流设置一个有限的集合, 从而在有
【Flink】单词统计
准备工作 需求:统计一个文件中各个单词出现的次数, 把统计结果输出到文件, 步骤: 读取数据源 处理数据源 将读到
【Flink】水印
当在流式计算环境中数据从 Source 产生,再到转换和输出,这个过程由于网络和反压的原因会导致消息乱序。
【HBase】预分表和region合并
「这是我参与2022首次更文挑战的第16天,活动详情查看:2022首次更文挑战」 一、为何要预分区? 当一个 table 刚被创建的时候, Hbase 默认的分配一个 region 给 table。
【HBase】数据模型与架构
HBase 基于 Google 的 BigTable 论文而来, 是一个分布式海量列式非关系型数据库系统,可以提供超大规模数据集的实时随机读写。
【HBase】协处理器
访问 HBase 的方式是使用 scan 或 get 获取数据, 在获取到的数据上进行业务运算。 客户端也需要有强大的计算能力以及足够的内存来处理这么多的数据。
【Druid】架构原理
Druid 总体包含以下 6 类节点: Coordinator node: 主要负责历史节点的数据负载均衡,
【Kylin】构建 Cube
准备数据 维度表的优化: 要具有数据一致性, 主键值必须是唯一的(否则 Kylin 构建过程会报错) 维度表越小越好,
【Kylin】安装
依赖环境 需要软件如下: 软件 版本 Hive 2.3.7 Hadoop 2.9.2 HBase 1.3.1 Zooke
【Kylin】初识
Apache Kylin, 一种 MOLAP 的数据分析引擎。 Kylin 提供多维数据分析(MOLAP)的秒级响
【Azkaban】安装multiple-executor
准备工作 节点划分如下: (1)编译 选用 azkaban3.51.0 这个版本自己进行重新编译,编译完成之后得到需要的
【Azkaban】使用方式
shell command 调度 创建 job 描述文件 将 job 资源文件打包成 zip 文件 通过 azkaban
【Impala】使用 SQL
数据库语句 创建数据库 删除数据库 二、表特定语句 create table 语句 insert 语句 select 语
【Impala】架构原理
组件 Impala 是一个分布式, 大规模并行处理(MPP)数据库引擎, 它包括多个进程。 Impala 与 Hive
下一页