大数据专栏

大数据专栏

大数据专栏

大数据专栏

暂无订阅共10篇文章创建于2022-08-07

Flume核心组件介绍

1、Flume简介 Flume 是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据，同时，Flume 提供对数据的简单处理，并写到各种数据接收方的能力 1、 A

3年前
227
1
评论

HBase的基本原理剖析（二）

1、HBASE的系统架构 Client 职责： 1、HBase 有两张特殊表： .meta.：记录了用户表的 Region 信息，.META.可以有多个 regoin -root-：记录了.META.

3年前
152
1
评论

HBase的基本原理剖析（一）

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Apache HBase™ 是Hadoo

3年前
177
1
评论

SparkSQL案例--电影数据分析

对电影评分数据进行统计分析、使用是sparkSQL中的SQL编程和DSL编程，实现获取电影平均分top10的并要求电影评分次数大于200的代码如下：

3年前
228
1
评论

Spark中SparkStreaming的介绍和实用

spark官网对于sparkStreaming的介绍 sparkStreaming的特点： 1、使用简单 2、容错性好 3、和spark能够无缝衔接数据流的处理：核心计算思想 SparkSt

3年前
132
1
评论

搜狗搜索日志分析

l 数据网址：http://www.sogou.com/labs/resource/q.php 搜狗实验室提供【用户查询日志(SogouQ)】数据分为三个数据集，大小不一样迷你版(样例数据, 376

3年前
262
1
评论

RDD中的依赖关系

在RDD中通过操作算子进行转换，转换得到的新RDD包含了从其他RDDs衍生所必需的信息，RDDs之间维护着这种血缘关系，也称之为依赖。如下图所示，依赖包括两种，一种是窄依赖(narrowdepende

3年前
183
2
评论

记录学习spark的wordcount案例

记录学习大数据spark的wordcount案例 1、启动spark服务 2、建立项目，引入依赖 3、采用scala编写代码 4、输出结果完毕！

3年前
144
1
评论

spark中的RDD集合详解及缓存持久化

什么是RDD RDD（Resilient Distributed Dataset），叫做弹性分布式数据集，是 Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在

3年前
309
1
评论

spark集群基本搭建

第一步： 1、spark下载地址： https://archive.apache.org/dist/spark 这里采用spark-3.1.2-bin-hadoop3.2.tgz 2、Scala安装

3年前
153
1
评论