首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
MOBIN1419
掘友等级
大数据工程师
专注Hadoop、Spark,热爱开源!2016,韩语得学好!!!
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
15
文章 15
沸点 0
赞
15
返回
|
搜索文章
赞
文章( 15 )
沸点( 0 )
HDFS NameNode 重启优化
在 Hadoop 集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作 NameNode 重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化 NameNode 重启非常关键。
Spark Yarn-cluster 与 Yarn-client
在 Spark 中,有 Yarn-Client 和 Yarn-Cluster 两种模式可以运行在 Yarn 上,通常 Yarn-cluster 适用于生产环境,而 Yarn-Cluster 更适用于交互,调试模式,以下是它们的区别
Scala-- 样例类 (case) 详解
case 类在模式匹配和 actor 中经常使用到,当一个类被定义成为 case 类后,Scala 会自动帮你创建一个伴生对象并帮你实现了一系列方法且带来了不少好处
Scala-Partial Functions(偏函数)
如果你想定义一个函数,而让它只接受和处理其参数定义域范围内的子集,对于这个参数范围外的参数则抛出异常,这样的函数就是偏函数(顾名思异就是这个函数只处理传入来的部分参数)。
Hive2.0 函数大全 (中文版)
Hive 内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。
通过 BulkLoad 的方式快速导入海量数据
加载数据到 HBase 的方式有多种,通过 HBase API 导入或命令行导入或使用第三方 (如 sqoop) 来导入或使用 MR 来批量导入(耗费磁盘 I/O,容易在导入的过程使节点宕机),但是这些方式不是慢就是在导入的过程的占用 Region 资料导致效率低下,今天要讲的就是利用 HBase 在 HDFS 存储原理及 MapReduce 的特性来快速导入海量的数据
深入理解 Scala 的隐式转换系统
通过隐式转换,程序员可以在编写 Scala 程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些冗长,过于细节的代码。
HBase 二级索引的设计 (案例讲解)
最近做的一个项目涉及到了多条件的组合查询,数据存储用的是 HBase,恰恰 HBase 对于这种场景的查询特别不给力,一般 HBase 的查询都是通过 RowKey(要把多条件组合查询的字段都拼接在 RowKey 中显然不太可能),或者全表扫描再结合过滤器筛选出目标数据 (太低效),所以通过设计 HBase 的二级索引来解决这个问题
Spark 常用函数讲解 --Action 操作
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集 RDD 有两种操作算子: Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成另一个 RDD 时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算
Spark 常用函数讲解之键值 RDD 转换
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集 RDD 有两种操作算子: Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成另一个 RDD 时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算
下一页
个人成就
文章被点赞
440
文章被阅读
26,276
掘力值
1,010
关注了
0
关注者
66
收藏集
0
关注标签
6
加入于
2016-02-09