首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
数据仓库
IT_心如止水
创建于2022-04-26
订阅专栏
数据仓库相关的技术文档沉淀
暂无订阅
共11篇文章
创建于2022-04-26
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
OLAP ——Druid简介
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 背景 Druid是一个分布式的支持实时分析的数据存储系统。通俗点说:就是一个高性能实时分析数据库。2011年,由美国广告技术公司MetaMa
Spark on Yarn中的Executor内存设置
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 背景介绍 Yarn yarn是一个主从型的计算资源管理系统,包含一个ResourceManager和多个NodeManager。其中Resourc
Hive开窗函数总结
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 随着技术的发展,各行各业产生的数据量级都越来越大,而hive sql作为大数据最好用的工具,使用的用户越来越多。但是,在日常工作中,好多同学对于h
数仓建模——事实表设计
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 目录 专有名词: 事实表类型 事实表设计原则 事实表设计方法 总结 专有名词: 粒度:事实表中一条记录所表达的业务细节程度称为粒度。通常粒度有2种
Hive面试题——最近N天uv优化策略
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 对于互联网行业做数据的小伙伴来说,计算最近N天(或者从某个时间点截止到当前)的UV可以说是最常见的场景了,在数据岗位面试中也是经常会遇到的问题。面
Hive面试题——次日,3日,7日,30日,90日留存计算
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 在日常工作中,用户留存分析是一个非常常见的业务场景。尤其是像互联网这样的重流量行业,用户留存就显得更加重要了。用户留存,顾名思义就是公司获取的新用
数据仓库—什么是OLAP
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 从事数据仓库或者大数据的同学,应该经常会听到OLAP这个词。什么OLAP分析,OLAP引擎等等名词。今天就来聊聊什么是OLAP。 OLAP与OLT
数据治理——数据安全
随着《数据安全法》的颁布实行,数据安全已经上升到国家安全层面和国家战略层面,企业和个人对于数据安全的重视程度也是越来越高。\ 现状 当前企业保证数据安全主要的措施有:数据分类、数据分级、数据脱敏 数据
Spark与MapReduce(Hive)对比分析
目录 Spark比MapReduce计算速度快的原因 Spark on Hive和Hive on Spark Spark on Hive Hive on Spark Spark比MapReduce计算
数仓建模——维度设计
维度建模作为目前数据仓库最主流的建模方法,其核心和灵魂就是维度。在维度建模中,度量或者指标叫做“事实”,而其所在的环境就是“维度”。维度的设计过程就是确定维度属性的过程,维度属性的选取优劣直接决定数据
数据治理——数据质量管理
目录 数据质量保障原则 完整性 准确性 一致性 及时性 常见的数据监控原则 单表数据量监控 单表空值检测 单表重复值检测 单表值域检测 跨表数据量对比 在当今这个大数据时代,数据质量对于数据的价值