大数据阶梯之路

数仓开发工程师

笔耕大数据技术领域，擅长大数据数据仓库体系分享数仓建设/数据开发/数据治理/数据架构/面试经验

赞

6

|

搜索文章

赞

文章( 6 ) 沸点( 0 )

一文入门Kafka，必知必会的概念通通搞定

Kakfa在大数据消息引擎领域，绝对是没有争议的国民老公。这是kafka系列的第一篇文章。预计共出20篇系列文章，全部原创，从0到1，跟你一起死磕kafka。本文盘点了Kafka的各种术语并且进行解读

胖滚猪学编程
5年前
2.6k
13
评论

Flink 面试通关手册

概述2019年是大数据实时计算领域最不平凡的一年，2019年1月阿里巴巴Blink（内部的Flink分支版本）开源，大数据领域一夜间从Spark独步天下走向了两强争霸的时代。Flink因为其天然的流式

王知无
6年前
7.2k
35
1

数据仓库的建设方法篇

数据散落在企业各部门应用的数据存储中，它们之间有着复杂的业务连接关系，从整体上看就如一张巨大的蜘蛛网：结构上错综复杂，却又四通八达。在企业级数据应用上单一业务使用方便，且灵活多变；但涉及到跨业务、多部门联合应用就会存在：①数据来源多样化，管理决策数据过于分散；②数据缺乏标准，难…

猫眼技术团队
6年前
7.7k
19
评论

大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？

1. hadoop 它是一个分布式计算+分布式文件系统，前者其实就是 MapReduce，后者是 HDFS 。后者可以独立运行，前者可以选择性使用，也可以不使用 2. hive 通俗的说是一个数据仓库，仓库中的数据是被hdfs管理的数据文件，它支持类似sql语句的功能，你可以通…

RunFromHere
7年前
12k
36
1

一文读懂MapReduce

Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型，又是一个计算框架。也就是说，开发人员必须基于MapReduce编程模型进行编程开发，然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型…

王知无
7年前
17k
44
2

一文读懂Apache Flink技术

Flink是一款分布式的计算引擎，它可以用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时地处理一些实时数据流，实时地产生数据的结果；也可以用来做一些基于事件的应用，比如说滴滴通过Flink CEP实现实时监测用户及司机的行为流来判断用户或司机的行为是否…

Flink_China
7年前
14k
42
4

个人成就

文章被阅读 2,686

加入于

2019-01-23