首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
大数据老司机
创建于2022-04-16
订阅专栏
大数据
等 74 人订阅
共130篇文章
创建于2022-04-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
通过 docker-compose 快速部署 Apache Ambari 保姆级教程
一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已
【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)
一、概述 Apache Ambari 是 Hortonworks 贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视 Hadoop 集群。 Ambari 目前已
通过 docker-compose 快速部署 StarRocks 保姆级教程
一、概述 StarRocks是一个开源的分布式OLAP(在线分析处理)数据库,旨在提供高性能、低延迟的数据分析和查询能力。它最初由中国的猎豹移动公司(Cheetah Mobile)开发,并于2016年
通过 docker-compose 快速部署 Azkaban 保姆级教程
一、概述 Apache Azkaban 是一个开源的批处理工作流调度系统,用于管理和调度Hadoop生态系统中的任务和作业。 Azkaban 提供了一个直观的Web界面,让用户能够轻松地定义、调度和监
通过 docker-compose 快速部署 HBase 保姆级教程
一、概述 HBase 是一个开源的 NoSQL 列式分布式数据库,它主要基于 Hadoop 分布式文件系统(HDFS)运行。HBase 最初是由 Facebook 公司贡献,其基于 Google的 B
【中间件】通过 docker-compose 快速部署 Kafka 保姆级教程
一、概述 Kafka是由Apache基金会开发的分布式流处理平台,采用发布-订阅模式,支持高吞吐量、低延迟的数据传输。主要用于处理实时数据管道、数据存储和数据分析等大数据应用场景。Kafka采用高效的
【中间件】通过 docker-compose 快速部署 Zookeeper 保姆级教程
一、概述 Zookeeper是一个开源的分布式协调服务中间件,它提供了一种分布式数据管理服务,能够实现分布式锁、命名服务、配置管理、集群管理等功能,从而帮助用户构建高可用、高性能的分布式系统。以下是Z
【大数据】Presto(Trino)REST API 与执行计划介绍
一、概述 Presto(现在叫Trino)是一个分布式SQL查询引擎,它允许用户在多个数据源上执行查询。Presto本身是一个独立的Java程序,可以通过REST API与其他应用程序进行通信。 Pr
【大数据】Presto(Trino)SQL 语法进阶
一、概述 Presto(Trino)是一个快速、分布式的SQL查询引擎,可以用于查询各种数据源,包括Hadoop、NoSQL、关系型数据库等。下面是Presto(Trino)SQL语法的概述: 它支持
【大数据】Presto(Trino)配置参数以及 SQL语法
[TOC] 一、概述 Trino (前身为PrestoSQL)是一款高性能,分布式的SQL查询引擎,可以用于查询各种类型的数据存储,包括Hive、Mysql、Elasticsearch、Kafka、P
【大数据】通过 docker-compose 快速部署 Presto(Trino)保姆级教程
一、概述 Presto是一个快速的分布式查询引擎,最初由Facebook开发,目前归属于 Presto Software Foundation(由 Facebook、Teradata 和其他公司共同支
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
一、Hive 小文件概述 在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128 MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们
【大数据】yarn proxyserver 和 historyserver 讲解
一、YARN Proxy 概述 Web应用程序代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击
【大数据】yarn 任务中的几种状态变化详细过程
一、概述 在YARN中,应用程序和Container的状态变化会影响任务的执行和资源分配。下面是YARN中应用程序和Container的状态详细过程: 1)Application 状态 是指YARN应
【大数据】Hive Join 的原理与机制
一、概述 Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进
【大数据】Hive DDL 操作与视图讲解
一、概述 Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。 1)表和视图关系 表和视图都是数据存
【大数据】Hive 内置函数和 UDF 讲解
一、概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来
【大数据】Hive 分区和分桶的区别及示例讲解
一、概述 在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下: 1)分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。
Elasticsearch 7.x文档基本操作(CRUD)
一、概述 Elasticsearch 是一个流行的开源搜索引擎,用于存储、搜索和分析数据。下面是 Elasticsearch 7.x 版本的基本操作(CRUD): 1、创建索引: 2、查看索引: 3、
Elasticsearch(ELK)集群环境部署
一、概述 ELK 是一个由三个开源软件工具组成的数据处理和可视化平台,包括 Elasticsearch、Logstash 和 Kibana。这些工具都是由 Elastic 公司创建和维护的。 Elas
下一页