大数据技术派

大数据技术派

大数据技术派

大数据技术派，分享Java、大数据、数据仓库知识。

等 71 人订阅共72篇文章创建于2021-05-25

彻底搞懂Python装饰器

在Python里面，函数可以作为参数传入一个函数，函数也可以复制给变量，通过变量调用函数。装饰器可以扩展一个函数的功能，为函数做一个装饰器注解，可以把装饰器里面定义的功能于所有函数提前执行，提升代码的复用程度。现在有这么个场景。互联网公司里面有各种员工，程序员，前台...，…

5年前
1.9k
4
评论

数仓建模分层理论

简单点儿，直接ODS+DM就可以了，将所有数据同步过来，然后直接开发些应用层的报表，这是最简单的了；当DM层的内容多了以后，想要重用，就会再拆分一个公共层出来，变成3层架构,这个过程有点类似代码重构，就是在实践中不断的进行抽象、总结。数仓的建模或者分层，其实都是为了更好的去组…

5年前
1.5k
6
2

Hive中的锁的用法和使用场景

前面遇到过一次因为Hive中表被锁住了，导致定时任务一直失败。这两天又出现了表被锁，原因是连接hiveserver2过于频繁，mysql连接被打满，引发的连锁反应，导致我们的小时任务一直失败，下午重点注意到这个问题，才解决好。在执行insert into或insert ove…

5年前
1.3k
2
评论

Hive中的锁的用法和使用场景

十大经典排序算法——基数排序

基数排序是一种非比较型整数排序算法，其原理是将整数按位数切割成不同的数字，然后按每个位数分别比较。由于整数也可以表达字符串（比如名字或日期）和特定格式的浮点数，所以基数排序也不是只能使用于整数。 1. 基数排序 vs 计数排序 vs 桶排序 2. LSD 基数排序动图演示 3.…

5年前
1.3k
7
2

Spark内核解析

Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理。 Spark驱动器节点，用于执行Spark任务中的main方法，负责实际代码的执行工作。Dr…

5年前
344
2
评论

彻底搞清Flink中的Window

在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内…

5年前
2.9k
4
1

彻底搞清Flink中的Window

Flink实时计算topN热榜

TopN的常见应用场景，最热商品购买量，最高人气作者的阅读量等等。 1. 用到的知识点 2. 案例介绍通过用户访问日志，计算最近一段时间平台最活跃的几位用户topN。 3. 数据源这里通过随机数来扰乱username，便于使用户名大小不一，让结果更加明显。KafkaUtil…

5年前
3.0k
8
评论

Flink实时计算topN热榜

第01讲：Flink 的应用场景和架构模型

Flink系列文章第01讲：Flink 的应用场景和架构模型第02讲：Flink 入门程序 WordCount 和 SQL 实现第03讲：Flink 的编程模型与其他框架比较 ...

4年前
283
点赞
评论

一、HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 1、概述 HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子

4年前
222
点赞
评论

数据湖是谁？那数据仓库又算什么？

刀光剑影江湖情，摧枯拉朽浪滔滔。功名利禄拂衣去，山高水远路迢迢。数据湖初识近两年，为什么都开始谈论起 Data Lake 这个”新名词”了？

4年前
769
4
评论

数据湖是谁？那数据仓库又算什么？

Hive实战UDF 外部依赖文件找不到的问题

[TOC] 其实这篇文章的起源是，我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo，只能在本地读取，我需要将ip库上传到HDFS分布式存储，每个计算节点再从H

4年前
467
2
评论

数仓建模—指标体系

指标体系提起指标这个词，每个人似乎都可以说出几个指标，像经常在工作中会听到的日活、月活、注册率、转化率、交易量等事实上指标就是用来量化事物的一个工具，帮助我们去将一些抽象的事件得出一个轮廓上的描述

4年前
3.1k
6
评论

数仓建模—宽表的设计

[TOC] 宽表的设计其实宽表是数仓里面非常重要的一块，前面我们介绍过了维度表事实表，今天我们介绍一下宽表，前面我们说过了数仓是分层的，这是技术进步和时代变化相结合的产物，数仓的分层式为了更好地管理

4年前
1.0k
1
评论

Spark SQL知识点详解与实战

Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同，Sp

4年前
1.3k
1
评论

Spark SQL知识点详解与实战

Spark面试题（二）

## Spark系列面试题 - [Spark面试题（一）](https://www.ikeguang.com/?p=1922) - [Spark面试题（二）](https://www.ikeguang

4年前
361
1
评论

Spark面试题（一）

Spark系列面试题 Spark面试题（一） Spark面试题（二） Spark面试题（三） Spark面试题（四） Spark面试题（五）——数据倾斜调优 Spark面试题（六）——Spark资源调

4年前
1.1k
2
评论

Zookeeper面试题总结

1、请简述Zookeeper的选举机制假设有五台服务器组成的zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一样的。假设这些服务器

4年前
534
1
评论

Kafka面试题总结（二）

1、请说明什么是Apache Kafka？ Apache Kafka是由Apache开发的一种发布订阅消息系统，它是一个分布式的、分区的和重复的日志服务。 2、请说明什么是传统的消息传递方法？传统的

4年前
174
1
评论

大数据SQL中的Join谓词下推，真的那么难懂？

听到谓词下推这个词，是不是觉得很高大上，找点资料看了半天才能搞懂概念和思想，借这个机会好好学习一下吧。引用范欣欣大佬的博客中写道，以前经常满大街听到谓词下推，然而对谓词下推却总感觉懵懵懂懂，并不明白

4年前
1.2k
2
1

大数据SQL中的Join谓词下推，真的那么难懂？

Redis去重4种方法

[TOC] 唯一计数是网站系统中十分常见的一个功能特性，例如网站需要统计每天访问的人数 unique visitor （也就是 UV）。计数问题很常见，但解决起来可能十分复杂：一是需要计数的量可能很大

4年前
5.3k
9
评论