大数据-数仓 - 追逐如梦的收藏集 - 掘金

大数据-数仓

更多收藏集

14篇文章 · 0订阅

【云原生】Spark on k8s 讲解与实战操作

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapRedu

大数据老司机
3年前
3.6k
3
评论

【云原生】Spark on k8s 讲解与实战操作

Hive元数据说明与应用

一、Hive数据存储 1、底层数据底层数据存储在分布式存储（HDFS）中。 2、元数据元数据信息维护在MetaStore。 Hive默认使用的元数据存储数据库是Derby，Derby不支持多个客户

YBCarry_段松啓
4年前
1.1k
1
评论

SQLLineage.com（分析SQL的数据血缘关系）

分析SQL获取数据血缘关系的小工具。数据就是黄金正在被广泛的认可，数据的生产就像淘金，生产的步骤繁琐还需消耗大量的计算资源。而数据的多样性和差异性使得数据生产不得不不断的迭代处理逻辑，分层数仓的设计

SQLLineage
4年前
2.5k
2
评论

SQLLineage.com（分析SQL的数据血缘关系）

什么是数据地图、血缘分析和数据资产？

取名字是一门学问，理科生取名字的确让人难以捉摸。比如这个数据地图、血缘分析和数据资产。数据地图是数据治理的重要功能之一。咱顾名思义一下，是不是就是数据的地图？是的！就是所有已经被管理好的数据的地图。以上功能名称可能不一样，但是解决的问题都是一样的。其核心就是为了告诉你，平台现在管...

大数据架构师
4年前
1.2k
2
评论

Apache Kylin 入门 3 - 安装与配置

前面两篇文章介绍了 Apache Kylin 相关的基本概念以及其工作原理，下面将进入实战部分，首先就是安装部署与配置。从上述配置可以看到，最新版（V2.5.1）有了诸多的变化，支持了 Hadoop 3.1，HBase 2.0；JDK 需求为 JDK8；CDH 用户需要注意的…

rochy_he
7年前
3.5k
1
评论

大数据开发---数仓拉链表概述，以及如何迭代或者回滚

拉链表是什么，在数仓建立时候，一种重要的表数据处理方式，可以将数据结构于算法，类比于拉链表于数仓，旨在解决数仓建立里面的SCD需求，那么什么是SCD，就是缓慢变化维，随着时间流逝，数据相对事实表发生缓慢变化。本文主要讲解拉链表来处理SCD的问题，其特点归纳以下，有以下几种场景…

Hoult丶吴邪
5年前
828
8
4

Hive基于UDF进行文本分词

Hive作为一个sql查询引擎，自带了一些基本的函数，比如count(计数)，sum(求和)，有时候这些基本函数满足不了我们的需求，这时候就要写hive hdf(user defined funation)，又叫用户自定义函数。编写Hive UDF的步骤：这个是一个比较常见的…

大数据技术派
5年前
718
5
2

篇一|ClickHouse快速入门

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse最初是一款名为Yandex.Metrica的产品，主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse，简称ClickH…

大数据技术与数仓
5年前
6.2k
15
评论

大数据开发-数仓ads层指标计算

ads层数据往往是最终的结果指标数据，在大屏展示，或者实时流处理时候使用，通过下面两个例子来练习业务大屏展示sql该怎么写。1.会员分析案例1.1数据准备表结构如下，其中此表是dws层以天为维度的会员

Hoult丶吴邪
5年前
459
2
评论

Hive中的锁的用法和使用场景

前面遇到过一次因为Hive中表被锁住了，导致定时任务一直失败。这两天又出现了表被锁，原因是连接hiveserver2过于频繁，mysql连接被打满，引发的连锁反应，导致我们的小时任务一直失败，下午重点注意到这个问题，才解决好。在执行insert into或insert ove…

大数据技术派
5年前
1.3k
2
评论

Hive中的锁的用法和使用场景