五分钟学大数据

大数据工程师 | 公众号：五分钟学大数据

赞

5

|

搜索文章

数仓建设保姆级教程，离线和实时一网打尽(理论+实战)

本文大纲：因内容较多，带目录的PDF查看是比较方便的：数仓建设保姆级教程PDF文档一、数仓基本概念 1. 数据仓库架构我们在谈数仓之前，为了让大家有直观的认识，先来谈数仓架构，“架构”是什么？

4年前
535
点赞
评论

数仓建设保姆级教程，离线和实时一网打尽(理论+实战)

万字详解 Spark 数据倾斜及解决方案

本文目录：一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾

4年前
1.5k
4
评论

数仓开发详细剖析

「这是我参与11月更文挑战的第29天，活动详情查看：2021最后一次更文挑战」。 1. 数据各层作用 ODS（原始数据层）：日志数据和业务进入数仓后，首先放入该层，建立分区表，防止后续的全表扫描，使

4年前
518
点赞
评论

消息队列（如 Kafka 等）的应用场景

「这是我参与11月更文挑战的第28天，活动详情查看：2021最后一次更文挑战」。消息队列在实际应用中包括如下四个场景：应用耦合：多应用间通过消息队列对同一消息进行处理，避免调用接口失败导致整个

4年前
668
点赞
评论

Hadoop企业级生产调优手册(二)

「这是我参与11月更文挑战的第27天，活动详情查看：2021最后一次更文挑战」。上节：Hadoop企业级生产调优手册(一) 五、HDFS存储优化注：演示纠删码和异构存储需要一共 5 台虚拟机。尽量

4年前
832
2
评论

Hadoop企业级生产调优手册(一)

「这是我参与11月更文挑战的第26天，活动详情查看：2021最后一次更文挑战」。一、HDFS核心参数 1.1 NameNode内存生产配置 1. NameNode 内存计算每个文件块大概占用 15

4年前
869
1
评论

ETL工具算法构建企业级数据仓库五步法

「这是我参与11月更文挑战的第25天，活动详情查看：2021最后一次更文挑战」。 01 什么是ETL？ ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是

4年前
229
点赞
评论

基于 Flink 搭建实时平台

「这是我参与11月更文挑战的第24天，活动详情查看：2021最后一次更文挑战」。一、前言在大数据时代，金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中，某些中介机构会搜集大量

4年前
832
1
评论

Redis 实现限流的三种方式

「这是我参与11月更文挑战的第23天，活动详情查看：2021最后一次更文挑战」。面对越来越多的高并发场景，限流显示的尤为重要。当然，限流有许多种实现的方式，Redis具有很强大的功能，我用Redis

4年前
11k
11
评论

基于 OneData 的数据仓库方法论

「这是我参与11月更文挑战的第22天，活动详情查看：2021最后一次更文挑战」。 OneData 是阿里巴巴内部进行数据整合和管理方法体系和工具。指导思想首先，要进行充分的业务调研和需求分析。其

4年前
799
1
评论

个人成就

文章被点赞 214

文章被阅读 103,045

掘力值 3,359

加入于

2020-12-23