大数据处理 - 肖晓岚的收藏集 - 掘金

大数据处理

更多收藏集

10篇文章 · 0订阅

兄弟，用大白话告诉你小白都能看懂的Hadoop架构原理

Hadoop是目前大数据领域最主流的一套技术体系，包含了多种技术。包括HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统），等等。有些朋友可能听说过Hadoop，但是却不太清楚他到底是个什么东西，这篇文章就用大白话给各位阐述一下。…

石杉的架构笔记
7年前
15k
178
30

兄弟，用大白话告诉你小白都能看懂的Hadoop架构原理

数据库面试题(开发者必看)

存储过程就像我们编程语言中的函数一样，封装了我们的代码(PLSQL、T-SQL)。上面的文字我们肯定是看不懂的，也不愿意看下去的。接下来我就总结一下：学生信息组成学生信息表，有年龄、性别、学号等信息组成。这些字段都不可再分，所以它是满足第一范式的第二范式：满足第一范式,表…

Java3y
8年前
63k
1.2k
42

基于代理的数据库分库分表框架 Mycat实践

在如今海量数据充斥的互联网环境下，分库分表的意义我想在此处就不用赘述了。而分库分表目前流行的方案最起码有两种：而本文即将要实验的 MyCAT框架就属于第二种方案的代表作品。由于插入的这两条记录的 create_date分别是 2018-11-3和 2018-12-3，而我们…

CodeSheep
7年前
1.6k
32
评论

基于代理的数据库分库分表框架 Mycat实践

是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数…

七牛云
7年前
4.9k
32
2

是时候学习真正的 spark 技术了

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍

上一篇文章，我们聊了一下Hadoop中的NameNode里的edits log写机制。主要分析了edits log写入磁盘和网络的时候，是如何通过分段加锁以及双缓冲的机制，大幅度提升了多线程并发写edits log的吞吐量，从而支持高并发的访问。如果没看那篇文章的同学，可以…

石杉的架构笔记
7年前
6.0k
28
9

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍

浅谈hdfs架构与数据流

随着数据量越来越大，在一个操作系统管辖的范围内存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS，它是一个文件系统，用于存储文件，通过目录树…

积跬步_成千里
7年前
1.7k
17
1

数据库两大神器【索引和锁】

索引和锁在数据库中可以说是非常重要的知识点了，在面试中也会经常会被问到的。表经常进行INSERT/UPDATE/DELETE操作就不要建立索引了，换言之：索引会降低插入、删除、修改等维护任务的速度。索引需要占物理和数据空间。为什么说索引会降低插入、删除、修改等维护任务的速…

Java3y
7年前
113k
1.2k
71

Elasticsearch Lucene 数据写入原理 | ES 核心篇

前言最近TL分享了下《Elasticsearch基础整理》https://www.jianshu.com/p/e8226138485d，蹭着这个机会。写个小文巩固下，本文主要讲ES->Lucene的底

子木聊出海
6年前
7.0k
18
评论