首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
WHY6666
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
82
文章 82
沸点 0
赞
82
返回
|
搜索文章
最新
热门
Flink 常用API(1)—— 源算子
flink常用API总结(1)(java): 执行环境的创建 源算子总结:从文件中、集合中、kafka中读取数据等
Flink窗口
flink窗口:将无限数据切割成有限的“数据块”进行处理,以便更高效地处理无界流 在处理无界数据流时,把无界流进行切分,每一段数据分别进行聚合,结果只输出一次
PySpark基础入门(8):Spark SQL(内容补充)
包括SparkSQL Shuffle 分区;SparkSQL 数据清洗API;SparkSQL函数定义(UDF函数);SparkSQL 使用窗口函数;SparkSQL运行流程
PySpark基础入门(7):Spark SQL
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据;PySpark使用DataFrame进行数据抽象,是一个二维表数据结构,适用于分布式集合
基于S/Key协议的身份认证系统设计与实现【python】
采用客户端/服务器的交互模式,来模拟实现基于S/Key协议的身份认证系统,包括初始化、口令生成、登录流程、协商策略等内容
PySpark基础入门(6):Spark Shuffle
Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce输入中,涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等
【信息系统安全/计算机系统安全】期末复习(HITWH)
《信息系统安全》课程重点总结,包括安全认证、访问控制、安全审计、Windows系统安全、Linux系统安全、数据库系统安全、信息系统安全测评、可信计算等内容
PySpark基础入门(5):Spark 内核调度
Spark任务调度:如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中的任务发到指定节点运行
PySpark基础入门(4):RDD共享变量
广播变量:作用是将本地的list对象标识为广播变量对象;累加器:作用是从各个executor对象中收集运行结果并作用于其自身(类似于内存指针)
PySpark基础入门(3):RDD持久化
RDD的持久化:RDD 的数据是过程数据,因此需要持久化存储; RDD之间进行相互迭代的计算,新的RDD的生成代表着旧的RDD的消失;这样的特性可以最大化地利用资源,老旧地RDD可以及时地从内存中清理
下一页
个人成就
文章被点赞
130
文章被阅读
53,278
掘力值
1,446
关注了
2
关注者
18
收藏集
0
关注标签
7
加入于
2023-01-19