大数据

大数据

大数据

大数据技术分享

等 5 人订阅共91篇文章创建于2021-11-10

流处理组件Flume使用攻略

Flume概述 Flume是一种日志采集工具。是一种分布式，可靠且可用的服务，可用于有效的手机，聚合和移动大量日志数据，它具有基于流数据的简单灵活架构，它具有可靠性机制和许多故障转移和恢复机制，具有强

4年前
266
2
评论

Kafka的生产集群部署

方案背景假设每天集群需要承载10亿数据。一天24小时，晚上12点到凌晨8点几乎没多少数据。使用二八法则估计，也就是80%的数据（8亿）会在16个小时涌入，而且8亿的80%的数据（6.4亿）会在这1

4年前
211
点赞
评论

Tomcat系统架构分析-Service

Tomcat 的结构很复杂，但是 Tomcat 也非常的模块化，找到了 Tomcat 最核心的模块，您就抓住了 Tomcat 的“七寸”。 Tomcat整体结构 Tomcat总体结构图从上图中可

4年前
165
点赞
评论

Kafka的集群搭建步骤

进到Kafka的config文件夹下，会发现有很多很多的配置文件，可是都不需要你来修改，你仅仅需要点开一个叫作server.properties的文件就够了。【broker.id】每个broker

4年前
130
点赞
评论

Kafka进阶面试题分享

1、为什么会用到kafka（消息队列的作用）缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把消息暂存在kafka中，

4年前
203
点赞
评论

kafka的优缺点都有那些

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。（1）优点：ka

4年前
1.6k
2
评论

如何使用JDBC API操作数据库

1、使用JDBC API操作数据库的基本步骤分析使用JDBC API操作数据库，进行CRUD基本步骤都相似。加载和注册驱动获取数据库连接准备操作执行SQL的Statement对象执行SQL

4年前
140
点赞
评论

HBase 优化如何操作

在介绍读流程之后，我们再结合有赞业务上的实践来介绍如何优化读请求，既然谈到优化，就要先知道哪些点可会影响读请求的性能，我们依旧从客户端和服务端两个方面来深入了解优化的方法。 1、客户端层面 HBase

4年前
185
2
评论

Flink类型系统的根及相关接口

类型的根Value Value位于所有类型的继承链的最顶端，可以说是所有类型的根。它代指所有可被序列化为Flink二进制表示的类型。该接口本身并不提供任何接口方法，但它继承自两个接口。下图是它的继承关

4年前
220
点赞
评论

大数据之Canal学习路线

Canal是由阿里开发并开源的轻量级MySQL数据抓取软件，在大数据领域有着非常广泛的应用，是大数据工程师的必备技能包之一。 Canal可以实时读取MySQL二进制日志Binlog，并生成JSON格式

4年前
547
点赞
1

浅谈RocketMQ与Kafka有什么区别

为了方便大家更好的选型，小编整理一份RocketMQ与Kafka的对比文档，希望可以帮助到大家。数据可靠性 RocketMQ支持异步实时刷盘，同步刷盘，同步Replication，异步Replica

4年前
1.3k
1
评论

为什么 MongoDB 使用 B 树

概述 MongoDB 是一个通用的、面向文档的分布式数据库[^1]，这是官方对 MongoDB 介绍。区别于传统的关系型数据库 MySQL、Oracle 和 SQL Server，MongoDB 最重

4年前
1.3k
6
1

详解HBase Connection 的使用

对于很多初次接触HBase的伙伴，在使用其客户端API来构建Connection连接对象的时候，有可能会陷入以下几个误区。类比druid等mysql数据库连接池，自己封装一个Connection对象

4年前
784
点赞
评论

kafka丢失和重复消费数据

Kafka作为当下流行的高并发消息中间件，大量用于数据采集，实时处理等场景，我们在享受他的高并发，高可靠时，还是不得不面对可能存在的问题，最常见的就是丢包，重发问题。 1、丢包问题：消息推送服务，每天

4年前
705
点赞
评论

单体应用与微应用典型架构比对

随着云化时代的到来，软件服务架构也从传统的单体架构向微服务架构转变，微服务架构发展的如火如荼，那么单体架构和微服务架构区别在哪里呢？单体应用典型架构在典型单体应用架构中，我们会横向部署多个应用，用

4年前
200
1
评论

HDFS（Hadoop分布式文件系统）

HDFS(Hadoop Distributed File System) 负责海量数据的存储，是一个高度容错性系统，能检测和应对硬件故障。主要角色有NameNode, DataNode, Second

4年前
205
2
评论

HBase数据的读写流程

HBase 的核心模块是 Region 服务器。Region 服务器由多个 Region 块构成，Region 块中存储一系列连续的数据集。Region 服务器主要构成部分是 HLog 和 Regio

4年前
302
3
评论

kafka的JavaAPI操作

一、创建maven工程并添加jar包创建maven工程并添加以下依赖jar包的坐标到pom.xml 二、生产者代码 1、使用生产者，生产数据 2、kafka当中的数据分区 kafka生产者发送的消息

4年前
130
3
评论

HIVE中临时表创建

在我们编写SQL 时候，常常需要使用到临时表。然后我们根据这个临时表，进行之后的操作，但是创建临时表有一定的开销。 1.WITH创建临时表如果这个临时表并不需要保存，并且下文只需要用有限的几次，我

4年前
1.4k
1
评论

从Hadoop框架讨论大数据生态

Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，Hadoop通常是指一个更广泛的概念——

4年前
238
2
评论