大数据

大数据

大数据

大数据技术分享

等 5 人订阅共91篇文章创建于2021-11-10

Webpack 性能之使用 Cache 提升构建性能

作者：范文杰不知不觉，Webpack原理系列已经陆续出了十篇文章，以构建主流程为纲逐步递进到插件、Loader、模块、运行时、Chunk、依赖对象、模块依赖图等关键概念的含义与运行原理，再到 HMR

4年前
2.4k
4
1

解决 rabbitmq 消息队列的顺序及重复消费问题

想想为什么要使用MQ？ 1.解耦，系统A在代码中直接调用系统B和系统C的代码，如果将来D系统接入，系统A还需要修改代码，过于麻烦！ 2.异步，将消息写入消息队列，非必要的业务逻辑以异步的方式运行，加快

4年前
485
点赞
评论

Kafka-Broker的基本模块

1.SocketServer SocketServer作为Broker对外提供Socket服务的模块，主要用于接收socket连接的请求，然后产生相应为之服务的SocketChannel对象。内部主

4年前
1.1k
3
评论

RocketMQ和Kafka的差异对比

Broker差异主从差异: kafka的master/slave是基于partition维度的，而rocketmq是基于broker维度的；kafka的master/slave是可以切换的，而roc

4年前
1.3k
3
评论

大数据开发技术NN和2NN工作机制

NN和2NN工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元

4年前
192
2
评论

大数据基石之Hadoop的读写流程与2.X架构

Hadoop读写流程与2.X架构安全模式集群启动时的一个状态，处于安全模式的状态下，只向客户端提供文件的只读视图 HDFS的权限 HDFS对权限的控制只能防止好人做错事不能防止坏人做坏事机架

4年前
207
2
评论

Spark和Hadoop以及区别

Spark是什么？ Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计

4年前
1.9k
2
评论

怎么排查是哪里出现了数据倾斜

Hive 数据倾斜怎么发现，怎么定位，怎么解决多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措

4年前
1.0k
1
评论

Kafka之为什么需要消息队列

大数据课程中在讲解消息队列的时候也说过为啥需要消息队列，“ 消息队列”是在消息的传输过程中保存消息的容器，当系统中出现“生产“和“消费“的速度或稳定性等因素不一致的时候，就需要消息队列，作为抽象层，弥

4年前
193
1
评论

生产队灯火通明 | 尚硅谷Maxwell视频教程发布

摘要：生命不息，奋斗不止，彪悍的人生永不言弃。学大数据的小伙伴们，垒哥的Atlas和Kylin视频看完了吗？担心你没了学习资料放纵堕落，垒哥又带着新视频来啦！我问垒哥：今晚不喝酒行吗？垒哥

4年前
349
1
评论

Flink是如何支持批流一体的

实现批处理的技术许许多多，从各种关系型数据库的sql处理，到大数据领域的MapReduce，Hive，Spark等等。这些都是处理有限数据流的经典方式。而Flink专注的是无限流处理，那么他是怎么做到

4年前
1.4k
2
评论

Flink动态同步元数据变化的方法

一、背景一个需求，需要同步MySQL数据到Hive，包括DDL与DML，所以需要动态同步元数据变化。二、官方Schema Evolution例子从Hudi官方文档Schema Evolution

4年前
1.5k
2
评论

HBase 和 Hive 的差别是什么，各自适用在什么场景中

Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。一、区别： Hbase： Hadoop database 的简

4年前
2.0k
2
评论

大数据的五个V是什么？

大数据的五个V如下： Volume：巨大的数据量 Volume表示体积大，即以高速率增长的数据量，即以PB为单位的数据量 Velocity：数据增长速度快 Velocity是数据增长的速度。社交媒体在

4年前
438
1
评论

kafka元数据信息存储在哪里，如何查看

本文主要讲述以下两部分内容： kafka数据的存储方式； kafka如何通过offset查找message。 1.前言写介绍kafka的几个重要概念： Broker：消息中间件处理结点，一个Kafk

4年前
811
1
评论

从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤

从 Hadoop 迁移到基于云的现代架构（比如 Lakehouse 架构）的决定是业务决策，而非技术决策。我们在之前的文章中探讨了每一个组织都必须重新评估他们与 Hadoop 的关系的原因。当来自技术

4年前
240
1
评论

数据倾斜的产生和解决办法？

产生数据倾斜的原因唯一值非常少，极少数值有非常多的记录值(唯一值少于几千) 唯一值比较多，这个字段的某些值有远远多于其他值的记录数，但是它的占比也小于百分之一或千分之一。什么是数据倾斜数据倾斜无

4年前
259
1
评论

Spark读取MongoDB数据的方法与优化

一、传统的较为简单的SparkSql方式读取 Maven仓库 org.mongodb.spark mongo-spark-connector_2.11 2.4.1 1.Java API // 构建数据

4年前
304
1
评论

Spark主备切换机制原理

Master实际上可以配置两个，那么在spark原生的standalone上也是支持Master主备切换的，也就是说，当Active Master节点挂掉之后，我们可以将Standby Master切

4年前
312
1
评论

驴行千里不洗沙尘，尚硅谷Spark性能调优教程发布

摘要：当年少立志三千里，莫踌躇百步无寸功。你是不是长了颗红楼梦的心，却生活在水浒的世界，想结交些三国里的桃园弟兄，却总遇到西游记中的各路妖魔鬼怪。 Today，我们聊聊从西游记看职场，聊一聊

4年前
155
2
评论