首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据专栏
yogurt_studio
创建于2022-08-07
订阅专栏
大数据专栏
暂无订阅
共10篇文章
创建于2022-08-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Flume核心组件介绍
1、Flume简介 Flume 是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据,同时,Flume 提供对数据的简单处理,并写到各种数据接收方的能力 1、 A
HBase的基本原理剖析(二)
1、HBASE的系统架构 Client 职责: 1、HBase 有两张特殊表: .meta.:记录了用户表的 Region 信息,.META.可以有多个 regoin -root-:记录了.META.
HBase的基本原理剖析(一)
Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Apache HBase™ 是Hadoo
SparkSQL案例--电影数据分析
对电影评分数据进行统计分析、使用是sparkSQL中的SQL编程和DSL编程,实现获取电影平均分top10的并要求电影评分次数大于200的 代码如下:
Spark中SparkStreaming的介绍和实用
spark官网对于sparkStreaming的介绍 sparkStreaming的特点: 1、 使用简单 2、 容错性好 3、 和spark能够无缝衔接 数据流的处理: 核心计算思想 SparkSt
搜狗搜索日志分析
l 数据网址:http://www.sogou.com/labs/resource/q.php 搜狗实验室提供【用户查询日志(SogouQ)】数据分为三个数据集,大小不一样 迷你版(样例数据, 376
RDD中的依赖关系
在RDD中通过操作算子进行转换,转换得到的新RDD包含了从其他RDDs衍生所必需的信息,RDDs之间维护着这种血缘关系,也称之为依赖。如下图所示,依赖包括两种,一种是窄依赖(narrowdepende
记录学习spark的wordcount案例
记录学习大数据spark的wordcount案例 1、启动spark服务 2、建立项目,引入依赖 3、采用scala编写代码 4、输出结果 完毕!
spark中的RDD集合详解及缓存持久化
什么是RDD RDD(Resilient Distributed Dataset),叫做弹性分布式数据集,是 Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在
spark集群基本搭建
第一步: 1、spark下载地址: https://archive.apache.org/dist/spark 这里采用spark-3.1.2-bin-hadoop3.2.tgz 2、Scala安装