煎饼

赞

3

|

搜索文章

1、简单介绍flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。提供了数据分布、容错机制以及资源管理等核心功能。 2、flink与streaming的区别架构模

5年前
574
点赞
1

jvm

https://www.cnblogs.com/JiHC/p/12852759.html

5年前
95
点赞
评论

数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，它用于支持企业或组织的决策分析处理。数据仓库是为了便于多维分析和多角度展现而将数据按特定的模…

5年前
359
点赞
评论

hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduc…

5年前
269
点赞
评论

它也是apache开源的一个类似于yarn的资源调度平台。 RDD（Resilient Distributed Dataset）叫做==弹性分布式数据集==，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. Dataset: 就是一个集合，…

5年前
251
点赞
评论

hadoop架构由三部分组成：分布式存储HDFS、分布式计算MapReduce、资源调度引擎Yarn。hadoop历史演变如下图所示：当系统出现故障原数据会丢失。 HDFS编辑日志文件editlog：在NameNode节点中的编辑日志editlog中，记录下来对客户端对HDF…

5年前
1.1k
点赞
1

大数据框架搭建与命令总结

一、Hadoop篇五、HBase篇1、hbase搭建2、hbaseshell命令总结：

5年前
191
点赞
1

storefile是hfile的抽象。每次memstore刷写数据到磁盘，就对应生成一个新的hfile文件出来客户端首先与zk建立连接；从zk中找到meta表的region位置。meta表的数据存储在某一个hregionserver上，客户端与此hregionserver建立…

5年前
300
点赞
评论

zookeeper是一个分布式、开源的、用于分布式应用程序的协调服务，用来解决分布式集群中应用系统的一致性问题的分布式的服务框架。他是主从架构、能够基于类似于文件系统的目录节点树方式的数据存储。用来维护和监控存储数据的状态变化，从而达到基于数据的集群管理。 -- 临时节点。生命…

5年前
175
点赞
2

hadoop基本概念

hadoop由3部分组成，分布式存储HDFS、分布式计算MapReduce、资源调度引擎Yarn。 hdfs是hadoop的分布式文件系统，负责为用户创建文件，存入、读出、修改、转储、删除文件等。hdfs的架构是主从架构Master|Slave或称为管理节点|工作节点。 HDF…

5年前
191
点赞
1

个人成就

文章被点赞 10

文章被阅读 6,182

加入于

2019-09-15