大数据组件 - sunny落花生的收藏集 - 掘金

大数据组件

更多收藏集

10篇文章 · 0订阅

大数据查询——HBase读写设计与实践

本项目主要解决 check 和 opinion2 张历史数据表（历史数据是指当业务发生过程中的完整中间流程和结果数据）的在线查询。原实现基于 Oracle 提供存储查询服务，随着数据量的不断增加，在写入和读取过程中面临性能问题，且历史数据仅供业务查询参考，并不影响实际流程，从系…

金正皓
8年前
1.2k
18
评论

图解大数据 | 海量数据库查询-Hive与HBase详解

HBase是建立在Hadoop文件系统之上的、分布式面向列的数据库。Hive是基于Hadoop的一个数据仓库工具，用于结构化数据的查询、分析和汇总。

ShowMeAI
4年前
8.4k
5
评论

图解大数据 | 海量数据库查询-Hive与HBase详解

理解分布式事务

这篇文章将介绍什么是分布式事务，分布式事务解决什么问题，对分布式事务实现的难点，解决思路，不同场景下方案的选择，通过图解的方式进行梳理、总结和比较。相信耐心看完这篇文章，谈到分布式事务，不再只是有“2PC”、“3PC”、“MQ的消息事务”、“最终一致性”、“TCC”等这些知识…

贝聊科技
7年前
19k
261
19

Spark Streaming 大厂面试题

Spark Streaming第一次运行不丢失数据 kafka参数 auto.offset.reset 参数设置成earliest 从最初始偏移量开始消费数据

摸鱼专家
4年前
7.1k
123
1

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

Spark的Shuffle是怎么回事

Shuffle的中文含义是混洗，官方定义是：一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中，存在着大量的网络消耗传输数据，会在磁盘上产生大量的中间文件，在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shu…

西兰花是真的菜
6年前
3.1k
3
评论

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

常规性能调优四：并行度调节 Spark作业中的并行度指各个stage的task的数量。如果并行度设置不合理而导致并行度过低，会导致资源的极大浪费

摸鱼专家
4年前
6.9k
131
评论

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

Elasticsearch快速入门，掌握这些刚刚好！

记得刚接触Elasticsearch的时候，没找啥资料，直接看了遍Elasticsearch的中文官方文档，中文文档很久没更新了，一直都是2.3的版本。最近又重新看了遍6.0的官方文档，由于官方文档介绍的内容比较多，每次看都很费力，所以这次整理了其中最常用部分，写下了这篇入门教…

MacroZheng
6年前
27k
214
10

Elasticsearch快速入门，掌握这些刚刚好！

「扫盲」Elasticsearch

不知道大家的公司用Elasticsearch多不多，反正我公司的是有在用的。平时听同事们聊天肯定避免不了不认识的技术栈，例如说：把数据放在引擎，从引擎取出数据等等。如果对引擎不了解的同学，就压根听不懂他们在说什么（我就是听不懂的一位，扎心了）。引擎一般指的是搜索引擎，现在用得…

Java3y
6年前
34k
698
26

「扫盲」Elasticsearch

Hadoop Shuffle详解

每个任务最重要的一个过程就Shuffle过程，这个过程会把所有的数据进行洗牌整理，排序，如果数据量大，将会非常的耗时。如图1.1所示，是一个从map端输出数据到合并成一个文件的过程。图1.1 Map文件输出从图中可以看到Map端输出的数据会被提交到一个内存缓冲区当中，当内存…

落寞的搬运工
7年前
2.5k
8
1