首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据技术派
大数据技术派
创建于2021-05-25
订阅专栏
大数据技术派, 分享Java、大数据、数据仓库知识。
等 70 人订阅
共72篇文章
创建于2021-05-25
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
彻底搞懂Python装饰器
在Python里面,函数可以作为参数传入一个函数,函数也可以复制给变量,通过变量调用函数。装饰器可以扩展一个函数的功能,为函数做一个装饰器注解,可以把装饰器里面定义的功能于所有函数提前执行,提升代码的复用程度。 现在有这么个场景。 互联网公司里面有各种员工,程序员,前台...,…
数仓建模分层理论
简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构,这个过程有点类似代码重构,就是在实践中不断的进行抽象、总结。 数仓的建模或者分层,其实都是为了更好的去组…
Hive中的锁的用法和使用场景
前面遇到过一次因为Hive中表被锁住了,导致定时任务一直失败。这两天又出现了表被锁,原因是连接hiveserver2过于频繁,mysql连接被打满,引发的连锁反应,导致我们的小时任务一直失败,下午重点注意到这个问题,才解决好。 在执行insert into或insert ove…
十大经典排序算法——基数排序
基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数。 1. 基数排序 vs 计数排序 vs 桶排序 2. LSD 基数排序动图演示 3.…
Spark内核解析
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理。 Spark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Dr…
彻底搞清Flink中的Window
在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内…
Flink实时计算topN热榜
TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。 1. 用到的知识点 2. 案例介绍 通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。 3. 数据源 这里通过随机数来扰乱username,便于使用户名大小不一,让结果更加明显。KafkaUtil…
第01讲:Flink 的应用场景和架构模型
Flink系列文章 第01讲:Flink 的应用场景和架构模型 第02讲:Flink 入门程序 WordCount 和 SQL 实现 第03讲:Flink 的编程模型与其他框架比较 ...
1. HBase概述
一、HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 1、概述 HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子
数据湖是谁?那数据仓库又算什么?
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。 数据湖初识 近两年,为什么都开始谈论起 Data Lake 这个”新名词”了?
Hive实战UDF 外部依赖文件找不到的问题
[TOC] 其实这篇文章的起源是,我司有数据清洗时将ip转化为类似中国-湖北-武汉地区这种需求。由于ip服务商提供的Demo,只能在本地读取,我需要将ip库上传到HDFS分布式存储,每个计算节点再从H
数仓建模—指标体系
指标体系 提起指标这个词,每个人似乎都可以说出几个指标,像经常在工作中会听到的日活、月活、注册率、转化率、交易量等 事实上指标就是用来量化事物的一个工具,帮助我们去将一些抽象的事件得出一个轮廓上的描述
数仓建模—宽表的设计
[TOC] 宽表的设计 其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技术进步和时代变化相结合的产物,数仓的分层式为了更好地管理
Spark SQL知识点详解与实战
Spark SQL概述 1、什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 与基本的Spark RDD API不同,Sp
Spark面试题(二)
## Spark系列面试题 - [Spark面试题(一)](https://www.ikeguang.com/?p=1922) - [Spark面试题(二)](https://www.ikeguang
Spark面试题(一)
Spark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) Spark面试题(五)——数据倾斜调优 Spark面试题(六)——Spark资源调
Zookeeper面试题总结
1、请简述Zookeeper的选举机制 假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。 假设这些服务器
Kafka面试题总结(二)
1、请说明什么是Apache Kafka? Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。 2、请说明什么是传统的消息传递方法? 传统的
大数据SQL中的Join谓词下推,真的那么难懂?
听到谓词下推这个词,是不是觉得很高大上,找点资料看了半天才能搞懂概念和思想,借这个机会好好学习一下吧。 引用范欣欣大佬的博客中写道,以前经常满大街听到谓词下推,然而对谓词下推却总感觉懵懵懂懂,并不明白
Redis去重4种方法
[TOC] 唯一计数是网站系统中十分常见的一个功能特性,例如网站需要统计每天访问的人数 unique visitor (也就是 UV)。计数问题很常见,但解决起来可能十分复杂:一是需要计数的量可能很大
下一页