首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
大数据老司机
创建于2022-04-16
订阅专栏
大数据
等 74 人订阅
共130篇文章
创建于2022-04-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据Hadoop之——部署hadoop+hive环境(window10)
一、安装JDK8 1)JDK下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html 按正常下载是需要先登录的,这
大数据Hadoop之——Flink Table API 和 SQL(单机Kafka)
一、Table API 和 Flink SQL 是什么 Flink官方下载:https://flink.apache.org/downloads.html 官方文档(最新版本):https://nig
大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)
一、概述 SQL & Table API:Flink 支持两种关系型的 API,Table API 和 SQL。这两个 API 都是批处理和流处理统一的 API,这意味着在无边界的实时数据流和有边界的
大数据Hadoop之——Spark Streaming原理
一、概述 二、Spark Streaming基本原理 1)官方文档对Spark Streaming的原理解读 2)框架执行流程 下面将从更细粒度架构角度看Spark Streaming的执行原理,这里
大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
一、Spark on Hive 和 Hive on Spark的区别 1)Spark on Hive 通过SparkSQL,加载Hive的配置文件,获取到Hive的元数据信息; 获取到Hive的元数据
大数据Hadoop之——Spark SQL+Spark Streaming
一、Spark SQL概述 二、SparkSQL版本 1)SparkSQL的演变之路 1.0以前: Shark(入口:SQLContext和HiveContext) SQLContext:主要Data
大数据Hadoop之——Spark集群部署(Standalone)
@[TOC] 一、Spark概述 二、Spark的运行模式 1)Standalone(本章讲解) 2)Mesos 3)YARN(推荐) yarn Client模式:Driver运行在本地,适合交互调试
大数据Hadoop之——计算引擎Spark
一、概述 1)Spark特点 高效性:不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的
大数据Hadoop之——数据仓库Hive
一、概述 在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理,MapReduce用于数据处理,而Hive是构建在Hadoop之上的数据仓库,包括以下方面: 使用HQL作为查询接口;
大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce)
@[TOC] 一、Hadoop概述 二、HDFS详解 1)HDFS概述 HDFS的设计特点 之所以选择 HDFS 存储数据,因为 HDFS 具有以下优点: 高容错性:数据自动保存多个副本。它通过增加副
大数据Hadoop生态系统介绍
@[TOC] 一、概述 1)Hadoop发行版本 1、Apache Hadoop发行版 官方地址:https://hadoop.apache.org 2、DKhadoop发行版 Github地址:ht