首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据开发
WHY6666
创建于2023-01-19
订阅专栏
大数据开发
暂无订阅
共30篇文章
创建于2023-01-19
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hadoop源码阅读(三):HDFS上传
Hadoop源码阅读(三):HDFS上传 本文基于尚硅谷Hadoop课程对于hadoop3.1.3的HDFS上传相关部分源码阅读流程进行了解析
Hadoop源码阅读(二):DataNode启动
Hadoop源码阅读(二):DataNode启动 本文基于尚硅谷Hadoop课程对于hadoop3.1.3的DataNode启动相关部分源码阅读流程进行了解析
Hadoop源码阅读(一):NameNode启动
Hadoop源码阅读(一):NameNode启动 本文基于尚硅谷Hadoop课程对于hadoop3.1.3的namenode启动相关部分源码阅读流程进行了解析
ClickHouse目录结构
本文介绍了ClickHouse的目录结构,clickhouse默认安装在/var/lib/clickhouse/路径下,本文介绍了其中的metadata和data文件夹中的内容
ClickHouse的安装启动
本文主要介绍了ClickHouse这一列式存储数据库的安装启动步骤,包括安装的全流程以及如何启动服务器及客户端;
Flink 常用API(2)——转换算子+聚合算子
Flink 常用API(2)——转换算子+聚合算子 包括map、flatmap、reduce、分区等常用操作
Flink 常用API(1)—— 源算子
flink常用API总结(1)(java): 执行环境的创建 源算子总结:从文件中、集合中、kafka中读取数据等
Flink窗口
flink窗口:将无限数据切割成有限的“数据块”进行处理,以便更高效地处理无界流 在处理无界数据流时,把无界流进行切分,每一段数据分别进行聚合,结果只输出一次
PySpark基础入门(8):Spark SQL(内容补充)
包括SparkSQL Shuffle 分区;SparkSQL 数据清洗API;SparkSQL函数定义(UDF函数);SparkSQL 使用窗口函数;SparkSQL运行流程
PySpark基础入门(7):Spark SQL
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据;PySpark使用DataFrame进行数据抽象,是一个二维表数据结构,适用于分布式集合
PySpark基础入门(6):Spark Shuffle
Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce输入中,涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等
PySpark基础入门(5):Spark 内核调度
Spark任务调度:如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中的任务发到指定节点运行
PySpark基础入门(4):RDD共享变量
广播变量:作用是将本地的list对象标识为广播变量对象;累加器:作用是从各个executor对象中收集运行结果并作用于其自身(类似于内存指针)
PySpark基础入门(3):RDD持久化
RDD的持久化:RDD 的数据是过程数据,因此需要持久化存储; RDD之间进行相互迭代的计算,新的RDD的生成代表着旧的RDD的消失;这样的特性可以最大化地利用资源,老旧地RDD可以及时地从内存中清理
PySpark基础入门(2):RDD及其常用算子
PySpark基础入门第二篇,主要介绍了RDD的基础内容以及常用算子,包括transformation算子,action算子以及一些分区操作算子
PySpark基础入门(1):基础概念+环境搭建
pyspark基础知识学习第一篇,介绍了spark的基础概念以及PySpark的环境搭建,包括local,standAlone以及spark on yarn
conda创建新环境出现ValueError: check_hostname requires server_hostname
conda创建新环境出现ValueError: check_hostname requires server_hostname
Hive基础知识总结
hive基础知识总结:hive基础架构、安装部署、客户端启动、DDL、建表语句、DML、内置函数等等
MySQL操作语句总结
对MySQL的基础操作语句进行了汇总,包括DDL(定义)、DML(操作)、DQL(查询)等以及一些复杂的查询操作
Flink水位线
水位线可以看作一条特殊的数据记录,它是插入到数据流中的一个标记点,主要内容就是一个时间戳,用来指示当前的事件时间;而它插入流中的位置,就应该是在某个数据到来之后
下一页