首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
用户5956393224617
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的…
Oozie任务调度框架详解安装及使用简介(一)
摘要:个人最近一段时间一直在使用oozie,从刚开始的各种别扭到现在越来越觉得有意思的情况下,想整理一下关于oozie的认知,整理出来一个oozie系列,本来市面上关于oozie的资料就比较少,希望写完后能形成自己对oozie的独特理解和加强整体性的把握. 公司下半年技术架构升…
分布式系统的一些基础理论
在一年前我曾经有做过一些 Zookeeper 的相关总结,现在我们再把它捡回来,重新的把一些前因后果都扯得更加明白。 我们先从服务部署架构的发展历程说起,其实无非就是 集中式 和 分布式 ,集中式就是说,什么我都是由一台机器搞定的。分布式就是多台服务器联合完成。所以在一开始的时…
一文带你过完Spark RDD的基础概念
上一篇权当吹水了,从这篇开始进入正题。 RDD(Resilient Distributed Dataset)叫做 弹性分布式数据集 ,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区(Partition)列表,组成了该RDD的数据…