mayishijie

研发工程师

赞

28

|

搜索文章

1. RDD队列（了解）测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理。 2. 自定义数据源(某些场景需要自定义) 需要继承Receiver，并实现onSta…

5年前
140
1
评论

streaming基本概念与入门

1. 概述 1. 离线与实时概念计算开始前就已经知道所有输入数据，并在计算时，输入数据不会变化，一般用于处理大数据量，如Hadoop的MapReduce处理方式。 2. 批量和流式 3. spark streaming是什么 Spark Streaming用于流式数据的处理。…

5年前
786
1
评论

sparkSql_数据加载与保存

1. 通用的加载与保存方式 1. 加载数据注意：加载数据的相关参数需写到上述方法中，如：textFile需传入加载数据的路径，jdbc需传入JDBC相关参数。 json表示文件的格式. 后面的文件具体路径需要用反引号括起来. 2. 保存数据注意：保存数据的相关参数需写到上述…

5年前
1.3k
3
评论

sparkSql_用户自定义函数

1. UDF:1对1 输入一行，返回一个结果。在Shell窗口中可以通过spark.udf功能用户可以自定义函数。 2. UDAF：多对1 输入多行,返回一行。强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数，如 count()，countDistin…

5年前
682
1
评论

sparkSql_idea开发

添加依赖代码实现

5年前
220
1
评论

sparkSql_DataFrame,DataSet以及RDD关系

1. DataFrame与DataSet互转 1. DataFrame转DataSet 这种方法就是在给出每一列的类型后，使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时，一定要加上 import spa…

5年前
686
1
评论

sparkSql_DataSet

1. 概述 DataSet是分布式数据集合。DataSet是Spark 1.6中添加的一个新抽象，是DataFrame的一个扩展。它提供了RDD的优势（强类型，使用强大的lambda函数的能力）以及Spark SQL优化执行引擎的优点。DataSet也可以使用功能性的转换（操作…

5年前
283
1
评论

sparkSql_DataFrame

1. 概述在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞…

5年前
376
1
评论

spark_累加器与广播变量

1. 累加器 1. 系统累加器分布式共享只写变量。（Task和Task之间不能读数据）累加器用来对信息进行聚合，通常在向Spark传递函数时，比如使用map()函数或者用 filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一…

5年前
286
1
评论

spark_数据读取与保存

1. 文件类数据读取与保存 1. Text文件 2. Json文件如果JSON文件中每一行就是一个JSON记录，那么可以通过将JSON文件当做文本文件来读取，然后利用相关的JSON库对每一条数据进行JSON解析。再次执行程序，发现解析失败。原因是一行一行的读取文件。注意：…

5年前
186
1
评论

个人成就

文章被点赞 75

文章被阅读 40,772

掘力值 1,449

加入于

2021-01-22