首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
mayishijie
掘友等级
研发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
28
文章 28
沸点 0
赞
28
返回
|
搜索文章
最新
热门
Dstream创建
1. RDD队列(了解) 测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个DStream处理。 2. 自定义数据源(某些场景需要自定义) 需要继承Receiver,并实现onSta…
streaming基本概念与入门
1. 概述 1. 离线与实时概念 计算开始前就已经知道所有输入数据,并在计算时,输入数据不会变化,一般用于处理大数据量,如Hadoop的MapReduce处理方式。 2. 批量和流式 3. spark streaming是什么 Spark Streaming用于流式数据的处理。…
sparkSql_数据加载与保存
1. 通用的加载与保存方式 1. 加载数据 注意:加载数据的相关参数需写到上述方法中,如:textFile需传入加载数据的路径,jdbc需传入JDBC相关参数。 json表示文件的格式. 后面的文件具体路径需要用反引号括起来. 2. 保存数据 注意:保存数据的相关参数需写到上述…
sparkSql_用户自定义函数
1. UDF:1对1 输入一行,返回一个结果。在Shell窗口中可以通过spark.udf功能用户可以自定义函数。 2. UDAF:多对1 输入多行,返回一行。强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数, 如 count(),countDistin…
sparkSql_idea开发
添加依赖代码实现
sparkSql_DataFrame,DataSet以及RDD关系
1. DataFrame与DataSet互转 1. DataFrame转DataSet 这种方法就是在给出每一列的类型后,使用as方法,转成Dataset,这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时,一定要加上 import spa…
sparkSql_DataSet
1. 概述 DataSet是分布式数据集合。DataSet是Spark 1.6中添加的一个新抽象,是DataFrame的一个扩展。它提供了RDD的优势(强类型,使用强大的lambda函数的能力)以及Spark SQL优化执行引擎的优点。DataSet也可以使用功能性的转换(操作…
sparkSql_DataFrame
1. 概述 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞…
spark_累加器与广播变量
1. 累加器 1. 系统累加器 分布式共享只写变量。(Task和Task之间不能读数据) 累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用 filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一…
spark_数据读取与保存
1. 文件类数据读取与保存 1. Text文件 2. Json文件 如果JSON文件中每一行就是一个JSON记录,那么可以通过将JSON文件当做文本文件来读取,然后利用相关的JSON库对每一条数据进行JSON解析。 再次执行程序,发现解析失败。原因是一行一行的读取文件。 注意:…
下一页
个人成就
文章被点赞
75
文章被阅读
40,772
掘力值
1,449
关注了
8
关注者
8
收藏集
4
关注标签
43
加入于
2021-01-22