首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据-数仓
订阅
追逐如梦
更多收藏集
微信扫码分享
微信
新浪微博
QQ
14篇文章 · 0订阅
【云原生】Spark on k8s 讲解与实战操作
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapRedu
数仓的元数据管理和上下游管理
元数据(Meta Data)狭义的来说可以理解为描述数据的数据,广义的来看是除了业务逻辑直接读写处理外的业务数据,所有用来维持整个系统运转所需的信息及数据都可以叫作元数据。
Hive元数据说明与应用
一、Hive数据存储 1、底层数据 底层数据存储在分布式存储(HDFS)中。 2、元数据 元数据信息维护在MetaStore。 Hive默认使用的元数据存储数据库是Derby,Derby不支持多个客户
SQLLineage.com(分析SQL的数据血缘关系)
分析SQL获取数据血缘关系的小工具。数据就是黄金正在被广泛的认可,数据的生产就像淘金,生产的步骤繁琐还需消耗大量的计算资源。而数据的多样性和差异性使得数据生产不得不不断的迭代处理逻辑, 分层数仓的设计
什么是数据地图、血缘分析和数据资产?
取名字是一门学问,理科生取名字的确让人难以捉摸。比如这个数据地图、血缘分析和数据资产。数据地图是数据治理的重要功能之一。咱顾名思义一下,是不是就是数据的地图?是的!就是所有已经被管理好的数据的地图。以上功能名称可能不一样,但是解决的问题都是一样的。其核心就是为了告诉你,平台现在管...
Apache Kylin 入门 3 - 安装与配置
前面两篇文章介绍了 Apache Kylin 相关的基本概念以及其工作原理,下面将进入实战部分,首先就是安装部署与配置。 从上述配置可以看到,最新版(V2.5.1)有了诸多的变化,支持了 Hadoop 3.1,HBase 2.0;JDK 需求为 JDK8;CDH 用户需要注意的…
大数据开发---数仓拉链表概述,以及如何迭代或者回滚
拉链表是什么,在数仓建立时候,一种重要的表数据处理方式,可以将数据结构于算法,类比于拉链表于数仓,旨在解决数仓建立里面的SCD需求,那么什么是SCD,就是缓慢变化维,随着时间流逝,数据相对事实表发生缓慢变化。 本文主要讲解拉链表来处理SCD的问题,其特点归纳以下,有以下几种场景…
Hive基于UDF进行文本分词
Hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。编写Hive UDF的步骤: 这个是一个比较常见的…
篇一|ClickHouse快速入门
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse最初是一款名为Yandex.Metrica的产品,主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickH…
大数据开发-数仓ads层指标计算
ads层数据往往是最终的结果指标数据,在大屏展示,或者实时流处理时候使用,通过下面两个例子来练习业务大屏展示sql该怎么写。1.会员分析案例1.1数据准备表结构如下,其中此表是dws层以天为维度的会员