首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
萧洒的身影
掘友等级
大数据开发工程师
Python,JAVA,大数据
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
33
文章 30
沸点 3
赞
33
返回
|
搜索文章
赞
文章( 30 )
沸点( 3 )
Spark Streaming的优化之从Receiver到Direct模式
随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行…
Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑
从报错信息来看,kudu不是spark的Data Source。百度了一下,看到有人说把上面那个jar包换成1.9.0版本,也就是 kudu-spark_2.11-1.9.0.jar。还是报错了 当注册为临时表时,必须为名称包含大写或非ascii字符的Kudu表分配备用名称。 …
Structured Streaming通过schema_of_json方法动态解析Kafka的JSON数据的Schema
在实际生产中消息中的字段可能会发生变化,比如多加一个字段什么的,但是Spark程序又不能停下来,所以考虑在程序中不是自定义好Schema,而是通过Kafka输入消息中json串来infer Schema。当然,也可以通过广播变量来更新配置文件,定期更新Schema,这也是一种写…
缓冲池(buffer pool),这次彻底懂了!!!
应用系统分层架构,为了加速数据访问,会把最常访问的数据,放在缓存(cache)里,避免每次都去访问数据库。 操作系统,会有缓冲池(buffer pool)机制,避免每次访问磁盘,以加速数据的访问。 MySQL作为一个存储系统,同样具有缓冲池(buffer pool)机制,以避免…
《Spark The Definitive Guide》Chapter 6:处理不同类型的数据
就是正常地加减乘除操作,然后就是一些函数,如pow。这里还提了两个函数,一是四舍五入的round,二是计算相关性的皮尔逊相关系数corr 还是回到根本,pandas中DataFrame有哪些处理null数据的方法,fillna、dropna、isNull、isNaN等等,spa…
Hello Spark! | Spark,从入门到精通
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。 当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 Ma…
Python | 数据分析实战 Ⅱ
上一篇文章《Python | 数据分析实战Ⅰ》中,实现了对数据的简单爬取,在文末也遗留了了一些问题。 在这篇文章中,我们主要对以上几个问题进行思考,并采取一些解决方式。 假如在对一个网站进行大量访问爬取时,略有反爬措施的网站一定会检测到你这个异常IP并进行封禁。如果你还没遇到这…
将 Hexo 个人博客同时部署到 GitHub 和 Coding 上
而后 Google 上查了下,发现国内有一个代码托管平台叫 Coding ,也可以将个人的 Hexo 博客托管到平台上,然后有点激动,说时迟那时快,立刻动手尝试将自己的个人博客托管到 Coding 上,中间遇到很多坑,折腾好久,最终成功,特此记录。 据了解,之前很多人都是把博客…
Python 工匠:编写条件分支代码的技巧
我一直觉得编程某种意义上是一门『手艺』,因为优雅而高效的代码,就如同完美的手工艺品一样让人赏心悦目。 在雕琢代码的过程中,有大工程:比如应该用什么架构、哪种设计模式。也有更多的小细节,比如何时使用异常(Exceptions)、或怎么给变量起名。那些真正优秀的代码,正是由无数优秀…
如何写一个通用的README规范
我们平常在进行项目开发时,一般都会把代码上传至代码托管平台上方便管理和维护。目前大家使用的托管平台最多的还是Github,国内外还有一些比较知名的代码托管平台,比如Gitlab、BitBucket,码云和码市等。 但我们在多人合作开发下,经常碰到的最头疼的问题是,其他开发者在交…
下一页
个人成就
文章被点赞
23
文章被阅读
56,538
掘力值
803
关注了
16
关注者
23
收藏集
4
关注标签
16
加入于
2017-08-21