首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
daiyongjun
掘友等级
软件工程师
随便写写
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
28
文章 28
沸点 0
赞
28
返回
|
搜索文章
赞
文章( 28 )
沸点( 0 )
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的…
使用HIVE分析业务日志
近期需要通过业务日志,统计出业务使用数据的分布情况,业务日志的数据格式如下,数据量大约是三百万。想借助hive的数据处理能力,通过解析url字段中的starttime字段,并通过对starttime聚合,分析出使用的数据分布情况。由于案例样本比较大,样本不方便提供,本文章只使用…
搭建本地YUM源
yum工具是基于rpm的,其一个重要的特性就是可以自动解决依赖问题。但是yum的本质依旧是把后缀名.rpm的包下载到本地,然后按次序安装之。但是每次执行yum install xxx,会自动安装并且安装完毕后把rpm包自动删除。而且有的yum源速度真的很慢每次都需要重复下载特别…
ElasticSearch分布式特性阅读笔记[集群内的原理]
当阅读本书时,将会遇到有关 Elasticsearch 分布式特性的补充章节。这些章节将介绍有关集群扩容、故障转移(集群内的原理) 、应对文档存储(分布式文档存储) 、执行分布式搜索(执行分布式检索) ,以及分区(shard)及其工作原理(分片内部原理) 。以下内容会以章节内容…
ClouderManager环境搭建【环境准备】
目前安装大数据集群环境有三种方式,第一种方式是基于Apache开源社区也就是tar包,如我们之前的章节提及的HDFS和YARN等组件的安装。第二种方式和第三种方式基于第三方组件【部分功能收费】,分别是Clouder Manager和HDP的方式,由于目前Clouder Mana…
如何将自己电脑变成云服务器
目前主流的云服务器很多,可是我自己免费认领的云服务器在好久之前就已经到期,当续费看到动不动一年好几千块,想想还是算了,正好自己家里也有闲置的电脑不使用,于是就决定使用花生壳进行内网穿透将它变成云服务。
ClouderManager环境搭建【CM安装】
目前安装大数据集群环境有三种方式,第一种方式是基于Apache开源社区也就是tar包,如我们之前的章节提及的HDFS和YARN等组件的安装。第二种方式和第三种方式基于第三方组件【部分功能收费】,分别是Clouder Manager和HDP的方式,由于目前Clouder Mana…
小故事持续更新中
从前有个皇帝要处决一批死刑犯。临死前皇帝想戏耍他们一下。皇帝说:“现在我让你们一人说一句话,如果是真话就砍头,如果是假话就绞死。显然相较于砍头,绞死更痛苦一点。 囚犯们跃跃欲试。但是无论如何无非两种死法一种砍头,另一种绞死。最后有一名老囚犯说了一句话。皇帝和大臣们都震惊折服了,…
下一页
个人成就
文章被点赞
21
文章被阅读
16,147
掘力值
412
关注了
9
关注者
5
收藏集
2
关注标签
11
加入于
2020-05-22