大数据开发

大数据开发

大数据开发

从零入门大数据

等 6 人订阅共60篇文章创建于2022-08-29

大数据开发Elasticsearch高级进阶（第六十篇）

一、Settings设置可以设置索引库的一些配置信息，主要针对分片数量和副本数量。分片数量只能在一开始创建索引库的时候指定，后期不能修改，副本数量可以随时修改返回的结果： 1.1、手工指定分片数量

2年前
390
1
评论

大数据开发Elasticsearch查询详解（第五十九篇）

这是我参与「掘金日新计划 · 2 月更文挑战」的第 8 天，点击查看活动详情” 一、Elasticsearch查询详解查询单条数据可以使用Get 查询一批满足条件的数据需要使用Search 准备数据

2年前
503
点赞
评论

大数据开发Elasticsearch的基本使用（第五十八篇）

这是我参与「掘金日新计划 · 2 月更文挑战」的第 7 天，点击查看活动详情” 一、ES的基本使用针对ES操作，官方提供了很多种操作方式。https://www.elastic.co/guide/e

2年前
224
点赞
评论

大数据开发初识Elasticsearch（第五十七篇）

这是我参与「掘金日新计划 · 2 月更文挑战」的第 6 天，点击查看活动详情” 一、为什么需要掌握Elasticsearch MapReduce、Hive、Spark、Flink侧重的是数据的清洗和聚

2年前
301
点赞
评论

大数据开发ClickHouse常用的数据类型及使用（第五十六篇）

这是我参与「掘金日新计划 · 2 月更文挑战」的第 5 天，点击查看活动详情” 一、常用数据类型 ClickHouse可以在数据库表中存储多种数据类型。可以通过下面的命令查看clickhouse支持哪

2年前
502
点赞
评论

大数据开发初识ClickHouse（第五十五篇）

这是我参与「掘金日新计划 · 2 月更文挑战」的第 4 天，点击查看活动详情” 一、什么是ClickHouse ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。在传

2年前
83
点赞
评论

大数据开发Flink State的容错和一致性（二）（第五十四篇）

这是我参与「掘金日新计划 · 2 月更文挑战」的第 3 天，点击查看活动详情” 一、Savepoint Checkpoint是为了保证应用在出现故障时可以顺利重启恢复 Savepoint是为了有计划的

2年前
1.8k
1
评论

大数据开发Flink State的容错和一致性（第五十三篇）

一、State的容错与一致性如何保证Flink流式任务故障后恢复到之前的状态？针对流式计算任务，在故障后恢复状态数据的时候，会涉及到三种语义。第一种：至少一次：At-least-once 这种语

3年前
98
点赞
评论

大数据开发Flink State管理和使用（第五十二篇）

一、什么是State状态当前流计算任务执行过程中需要用到之前的数据，那么之前的数据就可以称之为状态。流计算任务中的状态其实可以理解为历史流数据。状态在代码层面体现，其实就是一种存储数据的数据结构，类

3年前
711
点赞
评论

大数据开发Spark Streaming（第五十一篇）

一、Spark Streaming Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。这个实时：指的是近实时，最小可以支持

3年前
71
点赞
评论

大数据开发Flink高级进阶之KafkaConnector（第五十篇）

一、并行度一个Flink任务由多个组件组成（DataSource、Transformation、DataSink）一个组件由多个并行的实例（线程）来执行，一个组件的并行实例（线程）数目就被称为该组

3年前
503
点赞
评论

大数据开发Flink高级进阶之Watermark（第四十九篇）

一、Watermark 当我们使用EventTime处理流数据的时候，会遇到数据乱序的问题。流处理从数据产生，到流经Source，再到具体的算子，中间是有一个过程和时间的，有可能会导致数据乱序特别是

3年前
444
点赞
评论

大数据开发Flink高级进阶之Window和Time的使用（第四十八篇）

一、Window窗口 Flink批处理是流处理的一个特例，所以Flink底层引擎是一个流式引擎，在上面实现了流处理和批处理，而window是流处理到批处理的一个桥梁 Window是一种可以把无界数据切

3年前
86
点赞
评论

大数据开发Flink DataSet 与Table Api（第四十七篇）

一、DataSet API 1.1、DataSet API 之 DataSource 基于集合 fromCollection(Collection) 基于文件 readTextFile(Path) 1

3年前
384
点赞
评论

大数据开发Flink DataStream API（第四十六篇）

一、Flink核心API SQL Table API DataStream/DataSet API Stateful Stream Processing 一、DataStream API DataSo

3年前
500
1
评论

大数据开发Flink批处理（第四十五篇）

一、Flink批处理先把hello.txt文件上传到hdfs文件中 java批处理代码实现此时我们上面的代码还需要引入hadoop-client 执行完毕后，在hdfs可以看到out文件查看Fl

3年前
121
点赞
评论

大数据开发快速入门Flink（第四十四篇）

一、什么是Flink Flink是一个开源的分布式，高性能，高可用，准确的流处理框架。支持流（Stream）处理（实时计算）和批（Batch）处理（离线计算）分布式：可以运行在很多台机器上高性能：

3年前
166
点赞
评论

大数据开发Redis高级特性（第四十三篇）

一、Redis Java代码使用 pom文件引入依赖不使用线程池的方式使用线程池的方式二、封装Redis工具类二、Redis高级命令 2.1、expire 生成时间命令格式解释 expi

3年前
85
点赞
评论

大数据开发Redis核心实战（第四十二篇）

一、String string类型是Redis中最基本的数据类型，它能存储任何形式的内容，包含二进制数据，甚至一张图片一个string类型的值存储的最大容量是1GB string类型比较适合存储类型

3年前
176
点赞
评论

大数据开发快速了解Redis（第四十一篇）

一、什么是Redis Redis是一种面向key-value数据类型的内存数据库，可以满足我们对海量数据的快速读写需求 Redis的key只能是字符串，Value支持多种数据类型 string、has

3年前
76
点赞
评论