首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
大数据老司机
创建于2022-04-16
订阅专栏
大数据
等 74 人订阅
共130篇文章
创建于2022-04-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【大数据】什么是数据集成?(SeaTunnel 集成工具介绍)
一、什么是数据集成? 数据集成可以帮助企业更好地理解和利用他们的数据,并促进数据驱动的决策和业务流程优化。在数据集成过程中,需要考虑数据质量、数据安全性、数据格式、数据结构等方面的问题,并采用适当的技
通过 docker-compose 快速部署 Hive 详细教程
一、概述 其实通过 docker-compose 部署 hive 是在继上篇文章 Hadoop 部署的基础之上叠加的,Hive 做为最常用的数仓服务,所以是有必要进行集成的,感兴趣的小伙伴请认真阅读我
通过 docker-compose 快速部署 Hadoop 集群极简教程
前面那篇文章内容过多,可能小伙伴只是想快速部署,所以这里出了一个极简的部署教程,如果想了解详细部署过程,可以建议参考我上一篇的文章:通过 docker-compose 快速部署 Hadoop 集群详细
通过 docker-compose 快速部署 Hadoop 集群详细教程
一、概述 通过docker-compose来部署应用是非常简单和快捷的。但是因为docker-compose是管理单机的,所以一般通过docker-compose部署的应用用于测试、poc环境以及学习
【云原生】Minio on k8s 讲解与实战操作
MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构
【云原生】Sqoop on k8s 讲解与实战操作
Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduc
【云原生】Apache Livy on k8s 讲解与实战操作
Livy是一个提供Rest接口和spark集群交互的服务。它可以提交Spark Job或者Spark一段代码,同步或者异步的返回结果;也提供Sparkcontext的管理,通过Restful接口或RP
【云原生】HBase on k8s 编排部署讲解与实战操作
一、概述 官方文档:https://hbase.apache.org/book.html GitHub地址:https://github.com/apache/hbase 关于更多hbase的介绍,也
大数据Hadoop之——Apache Hudi 数据湖实战操作(FlinkCDC)
Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,关于Hudi的更多介绍可以参考我以下几篇文章:
大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数
大数据Hadoop之——新一代流式数据湖平台 Apache Hudi
Hudi(Hadoop Upserts Deletes and Incrementals),简称Hudi,是一个流式数据湖平台,支持对海量数据快速更新,内置表格式,支持事务的存储层、 一系列表服务、数
【云原生】Spark on k8s 讲解与实战操作
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapRedu
【云原生】Elasticsearch + Kibana on k8s 讲解与实战操作
Elasticsearch是一个基于Lucene的搜索引擎。它提供了具有HTTP Web界面和无架构JSON文档的分布式,多租户能力的全文搜索引擎。Elasticsearch是用Java开发的,根据A
【云原生】Azkaban on k8s 讲解与实战操作
大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell
【云原生】Flink on k8s 讲解与实战操作
一、概述 Flink官网:https://flink.apache.org/ 不同版本的文档:https://nightlies.apache.org/flink/ k8s on flink 官方文档
【云原生】Presto/Trino on k8s 环境部署
一、概述 PrestoDB官方文档:https://prestodb.io/docs/current/ Trino官方文档:https://trino.io/docs/current/ 了解更多也可以
大数据Hadoop之——HDFS小文件问题与处理实战操作
一、背景 Hadoop 高可用环境部署,可参考我之前的文章:大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原理与实现(QJM) 1)小文件是如何产生的? 动态分区插入数据,产生大量的
大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作
hdfs 需要存写大量文件,有时磁盘会成为整个集群的性能瓶颈,所以需要优化 hdfs 存取速度,将数据目录配置多磁盘,既可以提高并发存取的速度,还可以解决一块磁盘空间不够的问题。
大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原理与实现(QJM)
一、前言 非高可用部署,可参考我之前的文章:大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce) 二、Hadoop HDFS HA 架构与原理 1)Hadoop Nam
下一页