WHY6666

赞

82

|

搜索文章

Flink 常用API（1）—— 源算子

flink常用API总结（1）（java）：执行环境的创建源算子总结：从文件中、集合中、kafka中读取数据等

2年前
156
1
评论

flink窗口：将无限数据切割成有限的“数据块”进行处理，以便更高效地处理无界流在处理无界数据流时，把无界流进行切分，每一段数据分别进行聚合，结果只输出一次

2年前
147
1
评论

PySpark基础入门（8）：Spark SQL（内容补充）

包括SparkSQL Shuffle 分区；SparkSQL 数据清洗API；SparkSQL函数定义（UDF函数）；SparkSQL 使用窗口函数；SparkSQL运行流程

2年前
407
1
1

PySpark基础入门（7）：Spark SQL

SparkSQL 是Spark的一个模块, 用于处理海量结构化数据；PySpark使用DataFrame进行数据抽象，是一个二维表数据结构，适用于分布式集合

2年前
455
2
评论

基于S/Key协议的身份认证系统设计与实现【python】

采用客户端/服务器的交互模式，来模拟实现基于S/Key协议的身份认证系统，包括初始化、口令生成、登录流程、协商策略等内容

2年前
358
1
评论

基于S/Key协议的身份认证系统设计与实现【python】

PySpark基础入门（6）：Spark Shuffle

Shuffle是连接map和reduce之间的桥梁，它将map的输出对应到reduce输入中，涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等

2年前
930
3
评论

【信息系统安全/计算机系统安全】期末复习（HITWH）

《信息系统安全》课程重点总结，包括安全认证、访问控制、安全审计、Windows系统安全、Linux系统安全、数据库系统安全、信息系统安全测评、可信计算等内容

2年前
520
1
评论

【信息系统安全/计算机系统安全】期末复习（HITWH）

PySpark基础入门（5）：Spark 内核调度

Spark任务调度：如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行

2年前
317
2
评论

PySpark基础入门（4）：RDD共享变量

广播变量：作用是将本地的list对象标识为广播变量对象；累加器：作用是从各个executor对象中收集运行结果并作用于其自身（类似于内存指针）

2年前
209
1
评论

PySpark基础入门（3）：RDD持久化

RDD的持久化：RDD 的数据是过程数据，因此需要持久化存储； RDD之间进行相互迭代的计算，新的RDD的生成代表着旧的RDD的消失；这样的特性可以最大化地利用资源，老旧地RDD可以及时地从内存中清理

2年前
109
1
评论

个人成就

文章被点赞 132

文章被阅读 66,825

掘力值 1,486

加入于

2023-01-19