大数据之路

大数据之路

大数据之路

本专栏分享大数据相关开源组件及技术的原理与实战，希望大家关注！

等 4 人订阅共35篇文章创建于2022-04-06

es的UI界面elasticsearch-head插件安装

安装elasticsearch-head插件由于es服务启动之后，访问界面比较丑陋，为了更好的查看索引库当中的信息，我们可以通过安装elasti

4年前
402
11
评论

flink中的Time、Window（窗口）、Windows Function（窗口函数）

flink 中的streaming定义了多种流式处理的时间，Event Time（事件时间）、Ingestion Time（接收时间）、Processing Time（处理时间）。

4年前
441
10
评论

flink中的Time、Window（窗口）、Windows Function（窗口函数）

flink中的state理解

Apache Flink® — Stateful Computations over Data Streams，数据流上的状态计算。可以看出flink默认它是一个默认就有状态的分析引擎，State一般

4年前
264
13
评论

ELK简介、elasticsearch安装部署

一、ELK的基本介绍 1、ELK日志协议栈 ELK是三个软件产品的首字母缩写，Elasticsearch，Logstash 和 Kibana。这三款软件都是开源软件，通常是配合使用，而且又先后归于 E

4年前
265
11
评论

canal介绍、原理、部署、使用

简介 canal [kə'næl]，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费早期阿里巴巴

4年前
1.6k
10
评论

flume自定义拦截器

简单需求：向文件中定时新增日期数据,采集该文件, 通过自定义source拦截器给日期数据加上自己姓名作为前缀,输出到控制台。分析：需求很简单

4年前
488
9
评论

在使用hive时难免会碰到hive的函数解决不了的操作，这时我们就可以开发UDF函数去解决复杂的问题。 udf函数分类： UDF : User-Defined Function （用户自定义函数）一进

4年前
394
9
评论

zookeeper集群安装

我这里是有3台服务器，分别hostname为node01、node02、node03。三台机器已经配置好了ssh。 zookeeper使用的是cdh5的zookeeper包，没有使用原生

4年前
313
10
评论

mongodb复制集windows server部署

安装完成后我们需要启动三个mongod的服务来做为复制集的三个节点，我们可以直接打开cmd，使用mongod来根据不同的配置启动服务。例如：参考如下四张图，由于我安装的磁盘足够存放mongodb的数据

4年前
870
9
评论

hive使用split、cancat、collect_set、sort_array的一些示例及注意事项

废话不多说，我们直接使用一个使用例子来进行说明他们的功能例如：将periodical_code表中的p_year、p_year_stage两个字段连接成json字符串，然后分组收集到array里

4年前
2.9k
8
评论

HBase分布式数据库概念与实操

Client是操作HBase集群的入口，对于管理类的操作，如表的增、删、改操纵，Client通过RPC与HMaster通信完成，对于表数据的读写操作，Client通过RPC与RegionServer

4年前
769
9
评论

搭建学习使用的大数据集群环境：windows使用vmware安装三台虚拟机，配置好网络环境

安装三台linux服务器 1. 安装VMWare VMWare虚拟机软件是一个“虚拟PC”软件，它使你可以在一台机器上同时运行多个Windows、

4年前
456
9
评论

flink保证Exactly Once的方式、原理

满足三点，可以保证端到端的Exactly Once 开启checkpoint source支持数据重发 sink端幂等性写入、事务性写入。我们常使用事务性写入分布式快照机制（checkpoint）

4年前
1.1k
8
评论

flume自定义拦截器练习

向文件中定时新增日期数据,采集该文件, 通过自定义source拦截器给日期数据加上自己姓名作为前缀,输出到控制台。分析：需求很简单，主要在于练习flume自定义拦截器的流程，我们需要使

4年前
445
10
评论

ElasticSearch概念与实践

Elasticsearch是面向文档(document oriented)的，可以存储整个对象或文档(document)、索引(index)每个文档的内容，可以快速搜索。Elasticsearch中，

4年前
183
10
1

ElasticSearch概念与实践