大数据开发

大数据开发

大数据开发

大数据开发

暂无订阅共32篇文章创建于2023-01-19

Atlas学习笔记（1）—— 基础入门

Apache Atlas 为组织提供开放式元数据管理和治理功能，用以构建其数据资产目录，对这些资产进行分类和管理，形成数据字典。并为数据分析师和数据治理团队，提供围绕这些数据资产的协作功能

10月前
720
点赞
评论

HDFS不会自动退出安全模式问题

Hadoop集群启动之后，HDFS进入了安全模式，并且不会自动退出，提示数据块的比例并没有达到要求的阈值，因此开启安全模式

1年前
184
点赞
评论

Hadoop源码阅读（三）：HDFS上传

Hadoop源码阅读（三）：HDFS上传本文基于尚硅谷Hadoop课程对于hadoop3.1.3的HDFS上传相关部分源码阅读流程进行了解析

2年前
263
1
评论

Hadoop源码阅读（二）：DataNode启动

Hadoop源码阅读（二）：DataNode启动本文基于尚硅谷Hadoop课程对于hadoop3.1.3的DataNode启动相关部分源码阅读流程进行了解析

2年前
215
1
评论

Hadoop源码阅读（一）：NameNode启动

Hadoop源码阅读（一）：NameNode启动本文基于尚硅谷Hadoop课程对于hadoop3.1.3的namenode启动相关部分源码阅读流程进行了解析

2年前
124
1
评论

ClickHouse目录结构

本文介绍了ClickHouse的目录结构，clickhouse默认安装在/var/lib/clickhouse/路径下，本文介绍了其中的metadata和data文件夹中的内容

2年前
426
1
评论

ClickHouse的安装启动

本文主要介绍了ClickHouse这一列式存储数据库的安装启动步骤，包括安装的全流程以及如何启动服务器及客户端；

2年前
72
1
评论

ClickHouse的安装启动

Flink 常用API（2）——转换算子＋聚合算子

Flink 常用API（2）——转换算子＋聚合算子包括map、flatmap、reduce、分区等常用操作

2年前
134
1
评论

Flink 常用API（1）—— 源算子

flink常用API总结（1）（java）：执行环境的创建源算子总结：从文件中、集合中、kafka中读取数据等

2年前
113
1
评论

flink窗口：将无限数据切割成有限的“数据块”进行处理，以便更高效地处理无界流在处理无界数据流时，把无界流进行切分，每一段数据分别进行聚合，结果只输出一次

2年前
94
1
评论

PySpark基础入门（8）：Spark SQL（内容补充）

包括SparkSQL Shuffle 分区；SparkSQL 数据清洗API；SparkSQL函数定义（UDF函数）；SparkSQL 使用窗口函数；SparkSQL运行流程

2年前
294
1
1

PySpark基础入门（7）：Spark SQL

SparkSQL 是Spark的一个模块, 用于处理海量结构化数据；PySpark使用DataFrame进行数据抽象，是一个二维表数据结构，适用于分布式集合

2年前
375
2
评论

PySpark基础入门（6）：Spark Shuffle

Shuffle是连接map和reduce之间的桥梁，它将map的输出对应到reduce输入中，涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等

2年前
846
3
评论

PySpark基础入门（5）：Spark 内核调度

Spark任务调度：如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行

2年前
254
2
评论

PySpark基础入门（4）：RDD共享变量

广播变量：作用是将本地的list对象标识为广播变量对象；累加器：作用是从各个executor对象中收集运行结果并作用于其自身（类似于内存指针）

2年前
169
1
评论

PySpark基础入门（3）：RDD持久化

RDD的持久化：RDD 的数据是过程数据，因此需要持久化存储； RDD之间进行相互迭代的计算，新的RDD的生成代表着旧的RDD的消失；这样的特性可以最大化地利用资源，老旧地RDD可以及时地从内存中清理

2年前
80
1
评论

PySpark基础入门（2）：RDD及其常用算子

PySpark基础入门第二篇，主要介绍了RDD的基础内容以及常用算子，包括transformation算子，action算子以及一些分区操作算子

2年前
194
1
评论

PySpark基础入门（1）：基础概念＋环境搭建

pyspark基础知识学习第一篇，介绍了spark的基础概念以及PySpark的环境搭建，包括local，standAlone以及spark on yarn

2年前
1.7k
1
评论

conda创建新环境出现ValueError: check_hostname requires server_hostname

conda创建新环境出现ValueError: check_hostname requires server_hostname

2年前
334
1
评论

Hive基础知识总结

hive基础知识总结：hive基础架构、安装部署、客户端启动、DDL、建表语句、DML、内置函数等等

2年前
293
1
评论