首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
sunny落花生
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
450
文章 447
沸点 3
赞
450
返回
|
搜索文章
赞
文章( 447 )
沸点( 3 )
图解大数据 | 海量数据库查询-Hive与HBase详解
HBase是建立在Hadoop文件系统之上的、分布式面向列的数据库。Hive是基于Hadoop的一个数据仓库工具,用于结构化数据的查询、分析和汇总。
吃透JAVA的Stream流操作,多年实践总结
笔者结合在团队中多年的代码检视遇到的情况,结合项目编码实践经验,对Stream的核心要点与易混淆用法、典型使用场景等进行了详细的梳理总结,希望可以帮助大家对Stream有个更全面的认知。
Java集合框架 | ArrayList、Vector、LinkedList(一)
ArrayList和Vector 都用一个初始的容量大小,当存储它们里面的元素超出阈值,就需要增加两个集合的分别的存储空间,考虑到扩容的成本, 不是只增加一个存储单元,而是增加多个存储单元。
Spark的Shuffle是怎么回事
Shuffle的中文含义是混洗,官方定义是:一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中,存在着大量的网络消耗传输数据,会在磁盘上产生大量的中间文件,在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shu…
Spark 常规性能调优 之 并行度调节、广播大变量、Kryo序列化
常规性能调优四:并行度调节 Spark作业中的并行度指各个stage的task的数量。 如果并行度设置不合理而导致并行度过低,会导致资源的极大浪费
SparkSQL 在有赞的实践
有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问…
Spark核心编程的三大数据结构 之 RDD基础编程 (二)
RDD依赖关系 4.1 RDD 血缘关系 RDD只支持粗粒度转换 5.RDD持久化 6.RDD分区器 7.RDD文件读取与保存
Spark核心编程的三大数据结构 之 RDD基础编程 (一)
在Spark中创建RDD的创建方式可以分为四种: 从集合(内存)中创建RDD 从集合中创建RDD,Spark主要提供了两个方法:parallelize和makeRDD
是时候学习真正的 spark 技术了
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数…
【精通Linux系列】服务器之间的telnet与scp命令用法,进程管理命令之ps -ef与ps aux详解
linux服务器之间telnet与scp命令的用法 telnet命令用法: scp命令:用于服务器之间的文件或者文件目录拷贝 用法2:从别的机器拷贝文件到本地目录 scp root@服务器IP:服务器
下一页
关注了
62
关注者
0
收藏集
30
关注标签
18
加入于
2020-02-09