首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
尚硅谷
创建于2021-11-10
订阅专栏
大数据技术分享
等 5 人订阅
共91篇文章
创建于2021-11-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
流处理组件Flume使用攻略
Flume概述 Flume是一种日志采集工具。是一种分布式,可靠且可用的服务,可用于有效的手机,聚合和移动大量日志数据,它具有基于流数据的简单灵活架构,它具有可靠性机制和许多故障转移和恢复机制,具有强
Kafka的生产集群部署
方案背景 假设每天集群需要承载10亿数据。一天24小时,晚上12点到凌晨8点几乎没多少数据。 使用二八法则估计,也就是80%的数据(8亿)会在16个小时涌入,而且8亿的80%的数据(6.4亿)会在这1
Tomcat系统架构分析-Service
Tomcat 的结构很复杂,但是 Tomcat 也非常的模块化,找到了 Tomcat 最核心的模块,您就抓住了 Tomcat 的“七寸”。 Tomcat整体结构 Tomcat总体结构图 从上图中可
Kafka的集群搭建步骤
进到Kafka的config文件夹下,会发现有很多很多的配置文件,可是都不需要你来修改,你仅仅需要点开一个叫作server.properties的文件就够了。 【broker.id】 每个broker
Kafka进阶面试题分享
1、为什么会用到kafka(消息队列的作用) 缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,
kafka的优缺点都有那些
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 (1)优点:ka
如何使用JDBC API操作数据库
1、使用JDBC API操作数据库的基本步骤 分析使用JDBC API操作数据库,进行CRUD基本步骤都相似。 加载和注册驱动 获取数据库连接 准备操作执行SQL的Statement对象 执行SQL
HBase 优化如何操作
在介绍读流程之后,我们再结合有赞业务上的实践来介绍如何优化读请求,既然谈到优化,就要先知道哪些点可会影响读请求的性能,我们依旧从客户端和服务端两个方面来深入了解优化的方法。 1、客户端层面 HBase
Flink类型系统的根及相关接口
类型的根Value Value位于所有类型的继承链的最顶端,可以说是所有类型的根。它代指所有可被序列化为Flink二进制表示的类型。该接口本身并不提供任何接口方法,但它继承自两个接口。下图是它的继承关
大数据之Canal学习路线
Canal是由阿里开发并开源的轻量级MySQL数据抓取软件,在大数据领域有着非常广泛的应用,是大数据工程师的必备技能包之一。 Canal可以实时读取MySQL二进制日志Binlog,并生成JSON格式
浅谈RocketMQ与Kafka有什么区别
为了方便大家更好的选型,小编整理一份RocketMQ与Kafka的对比文档,希望可以帮助到大家。 数据可靠性 RocketMQ支持异步实时刷盘,同步刷盘,同步Replication,异步Replica
为什么 MongoDB 使用 B 树
概述 MongoDB 是一个通用的、面向文档的分布式数据库[^1],这是官方对 MongoDB 介绍。区别于传统的关系型数据库 MySQL、Oracle 和 SQL Server,MongoDB 最重
详解HBase Connection 的使用
对于很多初次接触HBase的伙伴,在使用其客户端API来构建Connection连接对象的时候,有可能会陷入以下几个误区。 类比druid等mysql数据库连接池,自己封装一个Connection对象
kafka丢失和重复消费数据
Kafka作为当下流行的高并发消息中间件,大量用于数据采集,实时处理等场景,我们在享受他的高并发,高可靠时,还是不得不面对可能存在的问题,最常见的就是丢包,重发问题。 1、丢包问题:消息推送服务,每天
单体应用与微应用典型架构比对
随着云化时代的到来,软件服务架构也从传统的单体架构向微服务架构转变,微服务架构发展的如火如荼,那么单体架构和微服务架构区别在哪里呢? 单体应用典型架构 在典型单体应用架构中,我们会横向部署多个应用,用
HDFS(Hadoop分布式文件系统)
HDFS(Hadoop Distributed File System) 负责海量数据的存储,是一个高度容错性系统,能检测和应对硬件故障。主要角色有NameNode, DataNode, Second
HBase数据的读写流程
HBase 的核心模块是 Region 服务器。Region 服务器由多个 Region 块构成,Region 块中存储一系列连续的数据集。Region 服务器主要构成部分是 HLog 和 Regio
kafka的JavaAPI操作
一、创建maven工程并添加jar包 创建maven工程并添加以下依赖jar包的坐标到pom.xml 二、生产者代码 1、使用生产者,生产数据 2、kafka当中的数据分区 kafka生产者发送的消息
HIVE中临时表创建
在我们编写SQL 时候,常常需要使用到临时表。 然后我们根据这个临时表,进行之后的操作,但是创建临时表有一定的开销。 1.WITH创建临时表 如果这个临时表并不需要保存,并且下文只需要用有限的几次,我
从Hadoop框架讨论大数据生态
Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,Hadoop通常是指一个更广泛的概念——
下一页