首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
尚硅谷
创建于2021-11-10
订阅专栏
大数据技术分享
等 5 人订阅
共91篇文章
创建于2021-11-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Webpack 性能之使用 Cache 提升构建性能
作者:范文杰 不知不觉,Webpack原理系列已经陆续出了十篇文章,以构建主流程为纲逐步递进到插件、Loader、模块、运行时、Chunk、依赖对象、模块依赖图等关键概念的含义与运行原理,再到 HMR
解决 rabbitmq 消息队列的顺序及重复消费问题
想想为什么要使用MQ? 1.解耦,系统A在代码中直接调用系统B和系统C的代码,如果将来D系统接入,系统A还需要修改代码,过于麻烦! 2.异步,将消息写入消息队列,非必要的业务逻辑以异步的方式运行,加快
Kafka-Broker的基本模块
1.SocketServer SocketServer作为Broker对外提供Socket服务的模块,主要用于接收socket连接的请求,然后产生相应为之服务的SocketChannel对象。 内部主
RocketMQ和Kafka的差异对比
Broker差异 主从差异: kafka的master/slave是基于partition维度的,而rocketmq是基于broker维度的;kafka的master/slave是可以切换的,而roc
大数据开发技术NN和2NN工作机制
NN和2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元
大数据基石之Hadoop的读写流程与2.X架构
Hadoop读写流程与2.X架构 安全模式 集群启动时的一个状态,处于安全模式的状态下,只向客户端提供文件的只读视图 HDFS的权限 HDFS对权限的控制 只能防止好人做错事 不能防止坏人做坏事 机架
Spark和Hadoop以及区别
Spark是什么? Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计
怎么排查是哪里出现了数据倾斜
Hive 数据倾斜怎么发现,怎么定位,怎么解决 多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措
Kafka之为什么需要消息队列
大数据课程中在讲解消息队列的时候也说过为啥需要消息队列,“ 消息队列”是在消息的传输过程中保存消息的容器,当系统中出现“生产“和“消费“的速度或稳定性等因素不一致的时候,就需要消息队列,作为抽象层,弥
生产队灯火通明 | 尚硅谷Maxwell视频教程发布
摘要:生命不息,奋斗不止,彪悍的人生永不言弃。 学大数据的小伙伴们, 垒哥的Atlas和Kylin视频看完了吗? 担心你没了学习资料放纵堕落, 垒哥又带着新视频来啦! 我问垒哥:今晚不喝酒行吗? 垒哥
Flink是如何支持批流一体的
实现批处理的技术许许多多,从各种关系型数据库的sql处理,到大数据领域的MapReduce,Hive,Spark等等。这些都是处理有限数据流的经典方式。而Flink专注的是无限流处理,那么他是怎么做到
Flink动态同步元数据变化的方法
一、背景 一个需求,需要同步MySQL数据到Hive,包括DDL与DML,所以需要动态同步元数据变化。 二、官方Schema Evolution例子 从Hudi官方文档Schema Evolution
HBase 和 Hive 的差别是什么,各自适用在什么场景中
Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。 一、区别: Hbase: Hadoop database 的简
大数据的五个V是什么?
大数据的五个V如下: Volume:巨大的数据量 Volume表示体积大,即以高速率增长的数据量,即以PB为单位的数据量 Velocity:数据增长速度快 Velocity是数据增长的速度。社交媒体在
kafka元数据信息存储在哪里,如何查看
本文主要讲述以下两部分内容: kafka数据的存储方式; kafka如何通过offset查找message。 1.前言 写介绍kafka的几个重要概念: Broker:消息中间件处理结点,一个Kafk
从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤
从 Hadoop 迁移到基于云的现代架构(比如 Lakehouse 架构)的决定是业务决策,而非技术决策。我们在之前的文章中探讨了每一个组织都必须重新评估他们与 Hadoop 的关系的原因。当来自技术
数据倾斜的产生和解决办法?
产生数据倾斜的原因 唯一值非常少,极少数值有非常多的记录值(唯一值少于几千) 唯一值比较多,这个字段的某些值有远远多于其他值的记录数,但是它的占比也小于百分之一或千分之一。 什么是数据倾斜 数据倾斜无
Spark读取MongoDB数据的方法与优化
一、传统的较为简单的SparkSql方式读取 Maven仓库 org.mongodb.spark mongo-spark-connector_2.11 2.4.1 1.Java API // 构建数据
Spark主备切换机制原理
Master实际上可以配置两个,那么在spark原生的standalone上也是支持Master主备切换的,也就是说,当Active Master节点挂掉之后,我们可以将Standby Master切
驴行千里不洗沙尘,尚硅谷Spark性能调优教程发布
摘要:当年少立志三千里,莫踌躇百步无寸功。 你是不是长了颗红楼梦的心, 却生活在水浒的世界, 想结交些三国里的桃园弟兄, 却总遇到西游记中的各路妖魔鬼怪。 Today,我们聊聊从西游记看职场, 聊一聊
下一页