首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
【Hadoop】
格格步入
创建于2021-08-06
订阅专栏
大数据
等 7 人订阅
共34篇文章
创建于2021-08-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【Flink】常用的DataSet和DataStream-API
目前截止 1.10 版本依然采用了 DataSet 和 DataStream 两套 API 来适配不同的应用场景。
【Spark Streming】DStream转换操作
DStream 上的操作与 RDD 的类似, 分为 Transformations(转换) 和 Output Op
【SparkSQL】数据抽象和类型
数据抽象 SparkSQL 提供了两个新的抽象, 分别是 DataFrame DataSet 同样的数据都给到这三个数据
【Spark】RDD 广播变量和累加器
有时候需要在多个任务之间共享变量, 或者在任务(Task) 和 Driver Program 之间共享变量。 为了
【Spark】RDD KV操作
RDD 整体上分为 Value 类型 和 Key-Value 类型。 之前介绍的是 Value的 类型的 RDD
【Spark】RDD分区
分区 spark.default.parallelism : (默认的并发数) = 2 当配置文件 spark-defa
【Spark】RDD依赖关系
RDD 只支持粗粒度转换, 即在大量记录上执行的单个操作。将创建 RDD 的一系列 Lineage (血统)记录下
【Spark】RDD
RDD 的核心概念 RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dat
【ClickHouse】MergeTree
案例,创建案例: 新增操作: 在 /var/lib/clickhouse/data/default/mt_tree
【ClickHouse】安装
`clickhouse-common-static` — `ClickHouse` 编译的二进制文件。 - `clickhouse-server` — 创建 `clickhouse-server` 软
【Hive】HQL 之 DQL
DQL -- Data Query Language 数据查询语言 select 语法: SQL 语句书写注意事项: SQL 语句对大小写
【Hive】HQL 之 DDL
DDL(data definition language): 主要的命令有 CREATE、 ALTER、DROP 等。 DDL 主要是用在
【Hive】数据类型与文件格式
基本类型 Hive 支持数据类型 `Hive` 中基本数据类型遵循以下层次结构, 按照这个层次结构, 子类型到祖先类型允许隐式转换。
大白话 Hadoop
先简单了解下,Hadoop 由三个模块组成: 分布式存储 HDFS 分布式计算 MapReduce 资源调度引擎 Yarn HD