大数据

大数据

大数据

大数据

等 77 人订阅共130篇文章创建于2022-04-16

分布式开源协调服务——Zookeeper

一、ZooKeeper概述特点：顺序一致性：来自客户端的更新将按照它们发送的顺序应用。原子性：更新成功或失败。没有部分结果。单一系统映像：客户端将看到相同的服务视图，而不管它连接到的服务

4年前
225
点赞
评论

大数据Hadoop之——Kafka 图形化工具 EFAK（EFAK环境部署）

[TOC] 一、概述源码： https://github.com/smartloli/kafka-eagle/ 下载： http://download.kafka-eagle.org/ 官方文档：h

4年前
1.2k
点赞
评论

大数据Hadoop之——数据采集存储到HDFS实战（Python版本）

要实现这个示例，必须先安装好hadoop和hive环境，环境部署可以参考我之前的文章：大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）大数据Hadoop之——数

4年前
488
点赞
评论

大数据Hadoop之——数据同步工具DataX

一、概述 Gitee：https://github.com/alibaba/DataX GitHub地址：https://github.com/alibaba/DataX 文档：https://git

4年前
2.2k
3
1

大数据Hadoop之——数据同步工具Sqoop

一、概述官网：https://sqoop.apache.org/ 官方文档：https://sqoop.apache.org/docs/1.99.7/index.html GitHub：https:

4年前
1.2k
点赞
评论

大数据Hadoop之——数据分析引擎Apache Pig

一、Apache Pig概述官网：https://pig.apache.org/ 官方文档：https://pig.apache.org/docs/r0.17.0/ Apache Pig具有以下特点

4年前
1.9k
4
评论

大数据Hadoop之——任务调度器Oozie（Oozie环境部署）

一、概述 Oozie的特点： Oozie是管理hadoop作业的调度系统； Oozie的工作流作业是一系列动作的有向无环图（DAG）； Oozie协调作业是通过时间（频率）和有效数据触发当前的Oozi

4年前
1.2k
1
评论

大数据Hadoop之——Hadoop图形化管理系统Hue（Hue环境部署）

一、概述 Hue官方网站：https://gethue.com/ 官方文档：http://cloudera.github.io/hue/latest/ GitHub：https://github.co

4年前
1.3k
1
评论

大数据Hadoop之——基于Hive的内存型SQL查询引擎Impala（Impala环境部署）

@[TOC] 一、概述 Impala 是可用于查询大数据的工具的补充。Impala 不会替代基于 MapReduce 构建的批处理框架，例如 Hive。Hive 和其他基于 MapReduce 构建的

4年前
1.3k
3
评论

大数据Hadoop之——Cloudera Hadoop（CM 6.3.1+CDH 6.3.2环境部署）

一、概述 1）目前比较流行Hadoop版本 Apache Hadoop Cloudera Hadoop（CDH） 2）CDH特点灵活性——存储任何类型的数据并使用各种不同的计算框架对其进行操作，包括

4年前
1.3k
点赞
评论

大数据Hadoop之——基于内存型SQL查询引擎Presto（Presto-Trino环境部署）

一、概述 PrestoDB官方文档：https://prestodb.io/docs/current/ Trino官方文档：https://trino.io/docs/current/ 二、Trino

4年前
1.1k
2
3

大数据Hadoop之——Azkaban API详解

一、Azkaban API概述 Azkaban 基本部分包括环境部署可以参考我之前的文章：大数据Hadoop之——任务调度器Azkaban（Azkaban环境部署）二、Azkaban API具体使用

4年前
306
点赞
评论

大数据Hadoop之——任务调度器Azkaban（Azkaban环境部署）

一、概述 1）什么是任务调度？这些任务需要不同的运行环境，并且除了定时运行，各种类型之间的任务存在依赖关系，一张简单的任务依赖图如下： 2）常见任务调度工具 Crontab （Linux 自带命令，

4年前
1.5k
3
评论

一、概述二、Scala发展历史联邦理工学院的马丁·奥德斯基（Martin Odersky）于2001年开始设计Scala。马丁·奥德斯基是编译器及编程的狂热爱好者，长时间的编程之后，希望发明一种

4年前
379
点赞
评论

Git常用操作（Gitlab）

一、git概述 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同，

4年前
324
1
评论

大数据Hadoop之——Flink CEP（Complex Event Processing：复合事件处理）详解（kafka on window）

一、概述特征目标：从有序的简单事件流中发现一些高阶特征；输入：一个或多个简单事件构成的事件流；处理：识别简单事件之间的内在联系，多个符合一定规则的简单事件构成复杂事件；输出：满足规则的复杂事

4年前
464
点赞
评论

大数据Hadoop之——Flink的状态管理和容错机制(checkpoint)

一、Flink中的状态官方文档数据流中的数据有重复，想对重复数据去重，需要记录哪些数据已经流入过应用，当新数据流入时，根据已流入过的数据来判断去重。检查输入流是否符合某个特定的模式，需要将之前流

4年前
929
2
评论

大数据Hadoop之——Flink中的Window API+时间语义+Watermark

@[TOC] 一、window 概念 Keyed Windows Non-Keyed Windows 一般真实的流都是无界的，怎样处理无界的数据？可以把无限的数据流进行切分，得到有限的数据集进行处理

4年前
267
点赞
评论

大数据Hadoop之——Flink DataStream API 和 DataSet API

一、DataStream API概述二、什么是DataStream ？ DataStream API 得名于特殊的 DataStream 类，该类用于表示 Flink 程序中的数据集合。你可以认为

4年前
542
点赞
评论

大数据Hadoop之——搭建本地flink开发环境详解（window10）

一、下载安装IDEA IDEA2020.2.3版本：https://www.cnblogs.com/liugp/p/13868346.html 最新版本安装详情请参考：https://www.jb51

4年前
500
点赞
评论