大数据

大数据

大数据

大数据

等 77 人订阅共130篇文章创建于2022-04-16

通过 docker-compose 快速部署 Apache Ambari 保姆级教程

一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目，它是一个基于web的工具，用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已

2年前
2.6k
1
2

通过 docker-compose 快速部署 Apache Ambari 保姆级教程

【大数据】大数据 Hadoop 管理工具 Apache Ambari（HDP）

一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目，它是一个基于web的工具，用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已

3年前
2.3k
2
评论

【大数据】大数据 Hadoop 管理工具 Apache Ambari（HDP）

通过 docker-compose 快速部署 StarRocks 保姆级教程

一、概述 StarRocks是一个开源的分布式OLAP（在线分析处理）数据库，旨在提供高性能、低延迟的数据分析和查询能力。它最初由中国的猎豹移动公司（Cheetah Mobile）开发，并于2016年

3年前
1.8k
点赞
1

通过 docker-compose 快速部署 StarRocks 保姆级教程

通过 docker-compose 快速部署 Azkaban 保姆级教程

一、概述 Apache Azkaban 是一个开源的批处理工作流调度系统，用于管理和调度Hadoop生态系统中的任务和作业。 Azkaban 提供了一个直观的Web界面，让用户能够轻松地定义、调度和监

3年前
1.4k
1
评论

通过 docker-compose 快速部署 Azkaban 保姆级教程

通过 docker-compose 快速部署 HBase 保姆级教程

一、概述 HBase 是一个开源的 NoSQL 列式分布式数据库，它主要基于 Hadoop 分布式文件系统（HDFS）运行。HBase 最初是由 Facebook 公司贡献，其基于 Google的 B

3年前
2.0k
2
评论

通过 docker-compose 快速部署 HBase 保姆级教程

【中间件】通过 docker-compose 快速部署 Kafka 保姆级教程

一、概述 Kafka是由Apache基金会开发的分布式流处理平台，采用发布-订阅模式，支持高吞吐量、低延迟的数据传输。主要用于处理实时数据管道、数据存储和数据分析等大数据应用场景。Kafka采用高效的

3年前
2.6k
3
评论

【中间件】通过 docker-compose 快速部署 Kafka 保姆级教程

【中间件】通过 docker-compose 快速部署 Zookeeper 保姆级教程

一、概述 Zookeeper是一个开源的分布式协调服务中间件，它提供了一种分布式数据管理服务，能够实现分布式锁、命名服务、配置管理、集群管理等功能，从而帮助用户构建高可用、高性能的分布式系统。以下是Z

3年前
2.4k
2
评论

【中间件】通过 docker-compose 快速部署 Zookeeper 保姆级教程

【大数据】Presto（Trino）REST API 与执行计划介绍

一、概述 Presto（现在叫Trino）是一个分布式SQL查询引擎，它允许用户在多个数据源上执行查询。Presto本身是一个独立的Java程序，可以通过REST API与其他应用程序进行通信。 Pr

3年前
2.4k
1
评论

【大数据】Presto（Trino）REST API 与执行计划介绍

【大数据】Presto（Trino）SQL 语法进阶

一、概述 Presto（Trino）是一个快速、分布式的SQL查询引擎，可以用于查询各种数据源，包括Hadoop、NoSQL、关系型数据库等。下面是Presto（Trino）SQL语法的概述：它支持

3年前
2.9k
点赞
评论

【大数据】Presto（Trino）SQL 语法进阶

【大数据】Presto（Trino）配置参数以及 SQL语法

[TOC] 一、概述 Trino (前身为PrestoSQL)是一款高性能，分布式的SQL查询引擎，可以用于查询各种类型的数据存储，包括Hive、Mysql、Elasticsearch、Kafka、P

3年前
2.7k
点赞
评论

【大数据】Presto（Trino）配置参数以及 SQL语法

【大数据】通过 docker-compose 快速部署 Presto（Trino）保姆级教程

一、概述 Presto是一个快速的分布式查询引擎，最初由Facebook开发，目前归属于 Presto Software Foundation（由 Facebook、Teradata 和其他公司共同支

3年前
1.7k
点赞
评论

【大数据】通过 docker-compose 快速部署 Presto（Trino）保姆级教程

【大数据】Hive 小文件治理和 HDFS 数据平衡讲解

一、Hive 小文件概述在Hive中，所谓的小文件是指文件大小远小于HDFS块大小的文件，通常小于128 MB，甚至更少。这些小文件可能是Hive表的一部分，每个小文件都包含一个或几个表的记录，它们

3年前
1.6k
2
评论

【大数据】Hive 小文件治理和 HDFS 数据平衡讲解

【大数据】yarn proxyserver 和 historyserver 讲解

一、YARN Proxy 概述 Web应用程序代理是YARN的一部分。默认情况下，它将作为资源管理器（RM）的一部分运行，但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击

3年前
1.6k
1
评论

【大数据】yarn proxyserver 和 historyserver 讲解

【大数据】yarn 任务中的几种状态变化详细过程

一、概述在YARN中，应用程序和Container的状态变化会影响任务的执行和资源分配。下面是YARN中应用程序和Container的状态详细过程： 1）Application 状态是指YARN应

3年前
1.5k
点赞
评论

【大数据】yarn 任务中的几种状态变化详细过程

【大数据】Hive Join 的原理与机制

一、概述 Hive是一个基于Hadoop的数据仓库解决方案，它提供了类似于SQL的查询语言，称为HiveQL，用于处理结构化数据。在Hive中，JOIN操作用于将两个或多个表中的数据连接在一起，以便进

3年前
1.1k
1
评论

【大数据】Hive Join 的原理与机制

【大数据】Hive DDL 操作与视图讲解

一、概述 Hive是建立在Hadoop上的数据仓库工具，它允许用户通过类SQL的语法来查询和管理数据。在Hive中，DDL（数据定义语言）和视图操作是非常常见的。 1）表和视图关系表和视图都是数据存

3年前
848
点赞
评论

【大数据】Hive DDL 操作与视图讲解

【大数据】Hive 内置函数和 UDF 讲解

一、概述 Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供类SQL语句操作。Hive内置了很多函数，可以满足基本的查询需求，同时还支持自定义函数(UDF)来

3年前
1.3k
点赞
评论

【大数据】Hive 内置函数和 UDF 讲解

【大数据】Hive 分区和分桶的区别及示例讲解

一、概述在大数据处理过程中，Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式，它们的区别如下： 1）分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。

3年前
1.5k
6
评论

【大数据】Hive 分区和分桶的区别及示例讲解

Elasticsearch 7.x文档基本操作（CRUD）

一、概述 Elasticsearch 是一个流行的开源搜索引擎，用于存储、搜索和分析数据。下面是 Elasticsearch 7.x 版本的基本操作（CRUD）： 1、创建索引： 2、查看索引： 3、

3年前
1.7k
27
评论

Elasticsearch 7.x文档基本操作（CRUD）

Elasticsearch（ELK）集群环境部署

一、概述 ELK 是一个由三个开源软件工具组成的数据处理和可视化平台，包括 Elasticsearch、Logstash 和 Kibana。这些工具都是由 Elastic 公司创建和维护的。 Elas

3年前
3.5k
3
评论

Elasticsearch（ELK）集群环境部署