首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
光羽隼
掘友等级
大数据开发
一个人要像一支队伍,对着自己的头脑和心灵招兵买马,不气馁,有召唤,
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
12
文章 12
沸点 0
赞
12
返回
|
搜索文章
最新
热门
Spark- Spark相关问题 未完成
1、Spark有几种部署模式,分别简要论述 2、Spark用什么提交 shell 脚本 3、Spark 提交作业的参数 4、简述Spark架构,以及作业提交的流程 5、如何理解spark中的血统概念
Hive- Hive相关问题 未完成
1、Hive的结构 2、Hive和数据哭的比较 3、内部表和外部表 4、四个By 5、窗口函数 窗口函数指定范围的用法 6、Hive优化
数仓-数仓中使用哪种数据存储格式?ORC和Parquet的区别
数据存储格式有textFile,sequenceFile,ORC,Parquet等 ods层使用textFile存储格式,使用Gzip压缩格式。因为ods层数据量大,访问频率较高,为了数据读取的快,所
数仓-数仓0-1建设的过程
通过三步调研(业务调研、需求调研、数据调研),划分主题域 业务调研初步确定dw层主题域, 需求调研初步确定应用层主题域, 数据调研,整理现有数据源、数据字典,形成数据调研表,确定每张表所属的业务线,确
Hive - 大致描述自定义函数 UDF、UDAF、UDTF
UDF 继承GenericUDF类,重写initialize,evaluate方法,init方法是对输入参数进行合法化验证,并对输出数据的类型进行定义,evaluate函数中主要是实现核心的逻辑。 一
数仓-数仓分层 未完
什么是数仓分层 将源数据根据规则进行处理,并落到hive表中。 为什么要数仓分层 为了让数据链路更清晰,数据使用起来更方便,建立分层数仓,也可以避免重复计算的问题。 怎么做数仓分层 一般双分层分为4-
数仓-事实表相关
什么是事实表? 记录一个业务过程的表叫做事实表。 比如广告点击表,记录的就是一条广告被点击的业务过程。 事实表的作用 描述业务过程; 事实表都包含哪些类型? 事务型事实表: 周期型快照事实表 累计型快
数仓-数据一致性
什么是数据一致性问题 一个概念在不同的业务中存在两种不同的解释或者表现,比如很简单的性别,在游戏部门性别男被定为1,女被定为0;商业化部门男被定为0,女被定为1.其实如果分析的数据相互隔离,也就是游戏
数仓-关于数仓的基础概念
OLTP 传统的联机事务处理系统。尽最大可能减少冗余,包含增删改查操作,通常采用规范化的技术来设计数据模型 OLAP 联机分析处理系统,主要面临的是数据追加和数据查询分析。面对的是海量的数据,由于在数
数仓-谈谈你对数仓的理解,数仓为什么要分层
数仓是什么, 是用来干什么的?为什么要用到数仓?什么样的场景需要用到数仓?普通数仓和大数据数仓有什么区别
下一页
个人成就
文章被阅读
1,532
掘力值
87
关注了
22
关注者
2
收藏集
6
关注标签
23
加入于
2016-08-25