大数据

大数据

大数据

大数据相关文章

等 89 人订阅共32篇文章创建于2021-05-26

linux常用命令（三）

这是我参与更文挑战的第8天，活动详情查看：更文挑战 8.搜索查找类 8.1 find 基本语法选项说明选项功能 -name<查询方式> 按照指定的文件名查找模式查找文件 -user<用户名> 查

4年前
5.8k
114
评论

linux常用命令（二）

这是我参与更文挑战的第7天，活动详情查看：更文挑战 4.时间日期类 4.1 显示当前时间基本语法 4.2 显示非当前时间基本语法 4.3 设置系统时间基本语法 4.4 同步系统时间 4.5 ca

4年前
5.7k
92
评论

linux常用命令（一）

1.vi/vim 1.1 是什么 VI是Unix操作系统和类Unix操作系统中最通用的文本编辑器。 VIM编辑器是从VI发展出来的一个性能更强大的文本编辑器。可以主动的以字体颜色辨别语法的正确性，方便

4年前
6.8k
124
评论

Spark 三大数据结构之 RDD的转换算子

算子从对数据操作来讲大致分为两类: 转换(transformations)和行动(action) 转换算子: 将一个RDD转换为另一个RDD，仅仅只是功能叠加，并不会真正去执行。（装饰者设计模式）

4年前
6.0k
135
评论

Spark 三大数据结构之 RDD的转换算子

Spark 三大数据结构之 RDD的行动算子

这是我参与更文挑战的第4天，活动详情查看：更文挑战介绍 RDD算子从对数据操作来讲大致分为两类: 转换(transformations)和行动(action) 转换算子: 将一个RDD转换为另一个R

4年前
6.5k
129
评论

Spark 三大数据结构之 RDD的行动算子

Spark核心编程的三大数据结构

Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享

4年前
8.3k
136
评论

Spark核心编程的三大数据结构

Spark核心编程的三大数据结构之 RDD基础编程 (二)

RDD依赖关系 4.1 RDD 血缘关系 RDD只支持粗粒度转换 5.RDD持久化 6.RDD分区器 7.RDD文件读取与保存

4年前
6.8k
141
评论

Spark核心编程的三大数据结构之 RDD基础编程 (二)

Spark核心编程的三大数据结构之 RDD基础编程 (一)

在Spark中创建RDD的创建方式可以分为四种：从集合（内存）中创建RDD 从集合中创建RDD，Spark主要提供了两个方法：parallelize和makeRDD

4年前
6.9k
137
评论

Spark核心编程的三大数据结构之 RDD基础编程 (一)

shell 脚本常用语法

1.概述 1.1 Linux提供的Shell解析器有： 1.2 bash和sh的关系 1.3 Centos默认的解析器是bash 2.脚本入门 2.1 脚本格式脚本以#!/bin/bash开头（指定

4年前
9.1k
181
评论

HBase Api DML 、DDL 的使用

HBase Java Api DML 、DDL 的使用包括namespace，table，data的增删改查操作

4年前
6.0k
133
评论

HBase 进阶 - 架构及核心流程等

1. RegionServer 架构 StoreFile 保存数据的物理文件，StoreFile以HFile存储在HDFS上，每个Store有一个或者多个StoreFile(HFile)，StoreF

4年前
6.8k
142
评论

Spark 之运行架构

1. 运行架构 Spark框架的核心是一个计算引擎，它采用了标准 master-slave 的结构。 Spark执行时的基本结构。图中的Driver表示master，负责管理整个集群中的作业任务调度。

4年前
6.5k
117
评论