首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
用户1102038664035
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
40
文章 38
沸点 2
赞
40
返回
|
搜索文章
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
spark_RDD持久化,检查点、缓存
1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。但是并不是这两个方法被...
3
2
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
spark_键值对RDD数据分区
1. 概述 spark支持Hash分区(当前默认是Hash)和Range分区,以及用户自定义分区。 分区器决定了RDD中分区的个数,RDD中每条数据经过shuffle后进入...
2
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
spark_数据读取与保存
1. 文件类数据读取与保存 1. Text文件 2. Json文件 如果JSON文件中每一行就是一个JSON记录,那么可以通过将JSON文件当做文本文件来读取,然后利用相关...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
spark_累加器与广播变量
1. 累加器 1. 系统累加器 分布式共享只写变量。(Task和Task之间不能读数据) 累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
sparkSql_DataSet
1. 概述 DataSet是分布式数据集合。DataSet是Spark 1.6中添加的一个新抽象,是DataFrame的一个扩展。它提供了RDD的优势(强类型,使用强大的l...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
sparkSql_DataFrame
1. 概述 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schem...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
sparkSql_DataFrame,DataSet以及RDD关系
1. DataFrame与DataSet互转 1. DataFrame转DataSet 这种方法就是在给出每一列的类型后,使用as方法,转成Dataset,这在数据类型是D...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
sparkSql_idea开发
添加依赖代码实现...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
sparkSql_用户自定义函数
1. UDF:1对1 输入一行,返回一个结果。在Shell窗口中可以通过spark.udf功能用户可以自定义函数。 2. UDAF:多对1 输入多行,返回一行。强类型的Da...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
sparkSql_数据加载与保存
1. 通用的加载与保存方式 1. 加载数据 注意:加载数据的相关参数需写到上述方法中,如:textFile需传入加载数据的路径,jdbc需传入JDBC相关参数。 json表...
3
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
streaming基本概念与入门
1. 概述 1. 离线与实时概念 计算开始前就已经知道所有输入数据,并在计算时,输入数据不会变化,一般用于处理大数据量,如Hadoop的MapReduce处理方式。 2. ...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
Dstream创建
1. RDD队列(了解) 测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
Dstream转换
DStream上的操作与RDD的类似,分为Transformations(转换) 和Output Operations(输出) 两种,此外转换操作中还有一些比较特殊的算子,...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
Hbase简介概述(1)
1. Hbase定义 Hbase是分布式,可扩展,支持海量数据存储的NoSql数据库。 2. Hbase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
Hbase安装部署(2)
1. 确保当前系统如下服务已经启动 2. Hbase安装部署 1. 解压 2. 配置配置文件 3. 群发Hbase到其它机器节点 4. HBase服务启动 如果集群之间的节...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
Hbase原理分析(3)
1. 架构原理 保存实际数据的物理文件,storeFile以HFile的形式存储在hdfs上,每个store会有一个或者多个storeFile(HFile),数据在每个st...
3
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
javaSE_接口,多态
1. 接口(interface) 接口,是Java语言中一种引用类型,是方法的集合,如果说类的内部封装了成员变量、构造方法和成员方法,那么 接口的内部主要就是封装了方法,包...
2
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
javaSE_final、权限、内部类、引用类型
1. final final: 不可改变。 可以用于修饰类、方法和变量。 对于我们不想让它被修改的东西,都用final修饰 类:被修饰的类,不能被继承。 方法:被修饰的方法...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
javaSE_继承、super、this、抽象类
1. 继承(extends) 继承:就是子类继承父类的属性和行为,使得子类对象具有与父类相同的属性、相同的行为。子类可以直接 访问父类中的非私有的属性和行为。 Java只支...
1
评论
分享
用户1102038664035
赞了这篇文章
mayishijie
研发工程师
·
4年前
关注
javaSE_collection,泛型
集合:集合是java中提供的一种容器,可以用来存储多个数据。 数组的长度是固定的。集合的长度是可变的。 数组中存储的是同一类型的元素,可以存储基本数据类型值。集合存储的都是...
2
评论
分享
下一页
关注了
1
关注者
0
收藏集
0
关注标签
0
加入于
2021-03-10