想不起来的事

获得徽章 11

赞

39

|

搜索文章

大数据中的消息队列｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第11天中介者这种存在一直以来都是解耦的好手段，而消息队列则是实践中使用最广中介形式。大数据领域中由于其中频繁的数据交换，远超普通应用的数据量级，因此消息队

3年前
114
点赞
评论

高可用机制｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第10天系统投入正式使用的要求便是高可用和高可扩展性，HDFS在它的元数据和数据储存两部分都有相关的设计。高可用是为了保证在一些故障情况下，仍然可以对外部

3年前
85
点赞
评论

大数据的列式储存｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第9天对于大数据计算任务而言，有个至关重要的问题就是:“如何高效读取数据”。目前来说，业界对这个问题给出的答案是使用列式储存。传统的OLTP注重某一行的数

3年前
112
点赞
评论

LSMT 浅析｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第7天 LSM-Tree 被称之为结构日志合并树，产生于1970年，晚于经典的储存结构 B树。与B树操作中需要的一些稍显复杂的文件修改不同的是，LSM-Tre

3年前
89
点赞
评论

HBase 原理与应用｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第7天尽管 HDFS 实现了廉价分布式文件系统的功能，但是这只能提供比较低级的数据保存形式而已。为了能够更好的利用HDFS这个分布式储存，大家自然会想要实现

3年前
128
点赞
评论

hdfs原理与实践｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第6天 HDFS 的目的是实现一个低成本的高可用、大容量的文件系统，最初的实现有参考过谷歌的GFS。其组件主要包括NameNode和DataNode两个部分

3年前
101
点赞
评论

shuffle 原理｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第5天 shuffle 概念起源于Map Reduce计算模型。 Map Reduce期望实现多机器的分布式并行计算，并让每个机器尽量少的交换数据。基于这个

3年前
128
点赞
评论

spark 原理与应用｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第4天大数据的常用处理链路是从数据源获取原始数据记过数据处理进行应用（BI、OLAP、机器学习等）。常用的计算引擎分为三类：批计算： Hadoop Hi

3年前
140
点赞
评论

window 计算｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第3天一般来说，批计算被认为是所谓的“T+1”架构，意思是依靠定时任务，完整处理之前的数据，一般是以天为单位。基于这个思路，可以进一步的压缩数据处理的间隔比

3年前
134
点赞
评论

exactly once｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第2天 Flink 将传统数据库表的概念扩展到了数据流。为了实现这个目标，业界提出的称呼是动态表。传统的数据库表相当于是一个列表，总归是有穷的、确定的，而数

3年前
55
点赞
评论

个人成就

文章被点赞 6

文章被阅读 10,111

加入于

2021-03-21