首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
萧洒的身影
掘友等级
大数据开发工程师
Python,JAVA,大数据
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
赞
33
文章 30
沸点 3
赞
33
返回
|
搜索文章
文章
热门
最新
Structured Streaming通过schema_of_json方法动态解析Kafka的JSON数据的Schema
在实际生产中消息中的字段可能会发生变化,比如多加一个字段什么的,但是Spark程序又不能停下来,所以考虑在程序中不是自定义好Schema,而是通过Kafka输入消息中json串来infer Schema。当然,也可以通过广播变量来更新配置文件,定期更新Schema,这也是一种写…
Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑
从报错信息来看,kudu不是spark的Data Source。百度了一下,看到有人说把上面那个jar包换成1.9.0版本,也就是 kudu-spark_2.11-1.9.0.jar。还是报错了 当注册为临时表时,必须为名称包含大写或非ascii字符的Kudu表分配备用名称。 …
CSV文件导入Hive的注意事项
注意是从本地文件上传,hdfs移动,还是查询已有表插入到新表中,数据导入Hive表的语法不同,分别是load data local inpath ...,load data inpath ...,insert into/overwrite table xxx ... selec…
用 Spark 处理复杂数据类型(Struct、Array、Map、JSON字符串等)
这种数据结构同C语言的结构体,内部可以包含不同类型的数据。还是用上面的数据,先创建一个包含struct的DataFrame Spark 最强的功能之一就是定义你自己的函数(UDFs),使得你可以通过Scala、Python或者使用外部的库(libraries)来得到你自己需要的…
《Spark The Definitive Guide》Chapter 6:处理不同类型的数据
就是正常地加减乘除操作,然后就是一些函数,如pow。这里还提了两个函数,一是四舍五入的round,二是计算相关性的皮尔逊相关系数corr 还是回到根本,pandas中DataFrame有哪些处理null数据的方法,fillna、dropna、isNull、isNaN等等,spa…
《Spark The Definitive Guide》Chapter 4:结构化API预览
这章开头就谈及会深入讲解一下 Spark 的结构化 API(Structured APIs),具体又分为三种核心类型的分布式集合API——Datasets、DataFrames、SQL tables and views,这些APIs用来处理各种数据——非结构化的日志、半结构化的…
《Spark The Definitive Guide》Chapter 5:基本结构化API操作
通过printSchema方法打印df的Schema。这里Schema的构造有两种方式,一是像上面一样读取数据时根据数据类型推断出Schema(schema-on-read),二是自定义Schema。具体选哪种要看你实际应用场景,如果你不知道输入数据的格式,那就采用自推断的。相…
MySQL数据库学习总结性思维导图和相关文章分享
最近找实习找工作,好好地回顾了一下数据库MySQL相关知识,整理出了一张脑图。大体设计类容如下
《Spark The Definitive Guide》Spark 权威指南学习计划
参考本书主页介绍,着眼于Spark 2.0的改进,探索Spark结构化API的基本操作和常用功能,以及用于构建端到端流应用程序的新型高级API Structured Streaming。学习监控,调优和调试Spark的基础知识,并探索机器学习技术和场景,以便使用Spark的可扩…
Python爬虫:人人影视追剧脚本
抓包分析搜索页面影视资源页面获取百度云,电驴等连接代码实现所需第三方库搜索页面解析搜索页链接获取下载页跳转链接获取下载链接结果最近追剧时发现找资源挺繁琐的,网页切换来切换去耗时也多,所以就想写个脚本代
下一页
个人成就
文章被点赞
22
文章被阅读
49,930
掘力值
754
关注了
16
关注者
20
收藏集
4
关注标签
16
加入于
2017-08-21