大数据

大数据

大数据

大数据

等 77 人订阅共130篇文章创建于2022-04-16

【大数据】什么是数据集成？（SeaTunnel 集成工具介绍）

一、什么是数据集成？数据集成可以帮助企业更好地理解和利用他们的数据，并促进数据驱动的决策和业务流程优化。在数据集成过程中，需要考虑数据质量、数据安全性、数据格式、数据结构等方面的问题，并采用适当的技

3年前
2.2k
7
评论

【大数据】什么是数据集成？（SeaTunnel 集成工具介绍）

通过 docker-compose 快速部署 Hive 详细教程

一、概述其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的，Hive 做为最常用的数仓服务，所以是有必要进行集成的，感兴趣的小伙伴请认真阅读我

3年前
2.7k
4
评论

通过 docker-compose 快速部署 Hive 详细教程

通过 docker-compose 快速部署 Hadoop 集群极简教程

前面那篇文章内容过多，可能小伙伴只是想快速部署，所以这里出了一个极简的部署教程，如果想了解详细部署过程，可以建议参考我上一篇的文章：通过 docker-compose 快速部署 Hadoop 集群详细

3年前
2.4k
4
评论

通过 docker-compose 快速部署 Hadoop 集群极简教程

通过 docker-compose 快速部署 Hadoop 集群详细教程

一、概述通过docker-compose来部署应用是非常简单和快捷的。但是因为docker-compose是管理单机的，所以一般通过docker-compose部署的应用用于测试、poc环境以及学习

3年前
4.4k
7
2

通过 docker-compose 快速部署 Hadoop 集群详细教程

【云原生】Minio on k8s 讲解与实战操作

MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构

3年前
3.2k
6
1

【云原生】Minio on k8s 讲解与实战操作

【云原生】Sqoop on k8s 讲解与实战操作

Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduc

3年前
1.7k
3
评论

【云原生】Sqoop on k8s 讲解与实战操作

【云原生】Apache Livy on k8s 讲解与实战操作

Livy是一个提供Rest接口和spark集群交互的服务。它可以提交Spark Job或者Spark一段代码,同步或者异步的返回结果;也提供Sparkcontext的管理,通过Restful接口或RP

3年前
2.6k
4
评论

【云原生】Apache Livy on k8s 讲解与实战操作

【云原生】HBase on k8s 编排部署讲解与实战操作

一、概述官方文档：https://hbase.apache.org/book.html GitHub地址：https://github.com/apache/hbase 关于更多hbase的介绍，也

3年前
3.6k
3
评论

【云原生】HBase on k8s 编排部署讲解与实战操作

大数据Hadoop之——Apache Hudi 数据湖实战操作（FlinkCDC）

Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，关于Hudi的更多介绍可以参考我以下几篇文章：

3年前
2.9k
6
评论

大数据Hadoop之——Apache Hudi 数据湖实战操作（FlinkCDC）

大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）

Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数

3年前
2.7k
6
1

大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）

大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数

3年前
2.7k
7
3

大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

【云原生】Spark on k8s 讲解与实战操作

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapRedu

3年前
3.7k
3
评论

【云原生】Spark on k8s 讲解与实战操作

【云原生】Elasticsearch + Kibana on k8s 讲解与实战操作

Elasticsearch是一个基于Lucene的搜索引擎。它提供了具有HTTP Web界面和无架构JSON文档的分布式，多租户能力的全文搜索引擎。Elasticsearch是用Java开发的，根据A

3年前
1.7k
3
评论

【云原生】Elasticsearch + Kibana on k8s 讲解与实战操作

【云原生】Azkaban on k8s 讲解与实战操作

大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序（任务）运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、Java、Shell

3年前
1.9k
2
评论

【云原生】Azkaban on k8s 讲解与实战操作

【云原生】Flink on k8s 讲解与实战操作

一、概述 Flink官网：https://flink.apache.org/ 不同版本的文档：https://nightlies.apache.org/flink/ k8s on flink 官方文档

3年前
2.9k
5
1

【云原生】Flink on k8s 讲解与实战操作

【云原生】Presto/Trino on k8s 环境部署

一、概述 PrestoDB官方文档：https://prestodb.io/docs/current/ Trino官方文档：https://trino.io/docs/current/ 了解更多也可以

3年前
2.8k
4
评论

【云原生】Presto/Trino on k8s 环境部署

大数据Hadoop之——HDFS小文件问题与处理实战操作

一、背景 Hadoop 高可用环境部署，可参考我之前的文章：大数据Hadoop之——Hadoop 3.3.4 HA（高可用）原理与实现（QJM） 1）小文件是如何产生的？动态分区插入数据，产生大量的

3年前
855
点赞
评论

大数据Hadoop之——HDFS小文件问题与处理实战操作

大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作

hdfs 需要存写大量文件，有时磁盘会成为整个集群的性能瓶颈，所以需要优化 hdfs 存取速度，将数据目录配置多磁盘，既可以提高并发存取的速度，还可以解决一块磁盘空间不够的问题。

3年前
1.5k
4
2

大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作

大数据Hadoop之——Hadoop 3.3.4 HA（高可用）原理与实现（QJM）

一、前言非高可用部署，可参考我之前的文章：大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）二、Hadoop HDFS HA 架构与原理 1）Hadoop Nam

3年前
1.2k
5
2

大数据Hadoop之——Hadoop 3.3.4 HA（高可用）原理与实现（QJM）