大数据

大数据

大数据

大数据

等 77 人订阅共130篇文章创建于2022-04-16

大数据Hadoop之——部署hadoop+hive环境（window10）

一、安装JDK8 1）JDK下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html 按正常下载是需要先登录的，这

4年前
739
点赞
评论

大数据Hadoop之——Flink Table API 和 SQL（单机Kafka）

一、Table API 和 Flink SQL 是什么 Flink官方下载：https://flink.apache.org/downloads.html 官方文档（最新版本）：https://nig

4年前
1.3k
5
评论

大数据Hadoop之——实时计算流计算引擎Flink（Flink环境部署）

一、概述 SQL & Table API：Flink 支持两种关系型的 API，Table API 和 SQL。这两个 API 都是批处理和流处理统一的 API，这意味着在无边界的实时数据流和有边界的

4年前
3.4k
21
评论

大数据Hadoop之——Spark Streaming原理

一、概述二、Spark Streaming基本原理 1）官方文档对Spark Streaming的原理解读 2）框架执行流程下面将从更细粒度架构角度看Spark Streaming的执行原理，这里

4年前
1.2k
3
评论

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现

一、Spark on Hive 和 Hive on Spark的区别 1）Spark on Hive 通过SparkSQL，加载Hive的配置文件，获取到Hive的元数据信息；获取到Hive的元数据

4年前
990
点赞
评论

大数据Hadoop之——Spark SQL+Spark Streaming

一、Spark SQL概述二、SparkSQL版本 1）SparkSQL的演变之路 1.0以前： Shark（入口：SQLContext和HiveContext） SQLContext：主要Data

4年前
445
1
评论

大数据Hadoop之——Spark集群部署（Standalone）

@[TOC] 一、Spark概述二、Spark的运行模式 1）Standalone（本章讲解） 2）Mesos 3）YARN（推荐） yarn Client模式：Driver运行在本地，适合交互调试

4年前
408
1
评论

大数据Hadoop之——计算引擎Spark

一、概述 1）Spark特点高效性：不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的

4年前
556
1
评论

大数据Hadoop之——数据仓库Hive

一、概述在Hadoop生态系统中，HDFS用于存储数据，Yarn用于资源管理，MapReduce用于数据处理，而Hive是构建在Hadoop之上的数据仓库，包括以下方面：使用HQL作为查询接口；

4年前
890
点赞
评论

大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）

@[TOC] 一、Hadoop概述二、HDFS详解 1）HDFS概述 HDFS的设计特点之所以选择 HDFS 存储数据，因为 HDFS 具有以下优点：高容错性：数据自动保存多个副本。它通过增加副

4年前
1.1k
1
评论

大数据Hadoop生态系统介绍

@[TOC] 一、概述 1）Hadoop发行版本 1、Apache Hadoop发行版官方地址：https://hadoop.apache.org 2、DKhadoop发行版 Github地址：ht

4年前
3.8k
4
3