首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
CodeDevMaster
创建于2022-03-09
订阅专栏
大数据
等 11 人订阅
共25篇文章
创建于2022-03-09
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Apache Dolphinscheduler:一个开源的分布式工作流调度系统
Apache DolphinScheduler 是一个开源的分布式工作流调度系统,主要用于数据处理和任务调度。它支持多种数据源和任务类型,能够帮助用户在大数据环境中进行复杂的工作流管理。
数据可视化与分析平台之Superset
Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。
CDH6.3.2之各个组件服务的安装
CDH是基于Apache Hadoop生态系统构建的,包括Hadoop核心组件(HDFS、YARN和MapReduce)以及其他相关开源技术组件(Hive、HBase、Spark、Impala等)。
安装部署CDH6.3.2
CDH是一个基于Apache Hadoop的开源软件发行版,包含了一系列与Hadoop生态系统相关的开源软件。它是由Cloudera公司开发和维护,为企业和组织提供了易于使用和管理的大数据处理解决方案
配置Hive使用Spark执行引擎
在Hive中,可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括:默认MR、tez、spark。
大数据开发中常用组件服务的集群管理脚本整理集合
在大数据开发中,需要对各个组件服务集群进行管理,为了效率和可靠性,可以编写shell脚本来统一管理和维护集群,确保系统的稳定性和可靠性。
配置开启Hive远程连接
使用IDEA工具远程连接Hive,首先需要配置开启Hive远程连接支持,主要有2种方式来配置开启Hive远程连接。
从源代码编译构建Apach Spark3.2.4
使用官方预编译版本的Spark已经足够满足日常需求。当在特定的场景和需求下,重新编译Spark提供了更大的灵活性和控制权,适用于需要特定功能、定制化配置或对Spark进行扩展的场景。
从源代码编译构建Hive3.1.3
在某些特定情况下,可能需要从源代码编译Hive,而不是使用预编译的安装包。本文记录从源代码编译构建Hive3.1.3的整个过程。
Apache Druid单机环境搭建及基本使用
Apache Druid是一个实时分析型数据库,旨在对大型数据集进行快速的查询分析。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景。
任务调度器之Azkaban的使用
Azkaban是一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。在大数据领域中,用于运行Hadoop作业。
Docker安装Hive与Windows安装Hive
在Linux环境下,使用Docker安装Hive,以及在Windows环境下安装Hive......
Hadoop之计算框架Tez的基本使用
Tez是支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG 作业的性能。
数据采集工具之Flume的常用采集方式详细使用示例
Apache Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
Apache Phoenix的安装以及结合HBase的Java API使用
Phoenix是一个基于HBase的开源SQL引擎,可以使用标准的JDBC API代替HBase客户端API操作。
在Windows环境与Linux环境下安装单机Kafka与安装搭建Kafka集群
详细记录Windows环境下安装Kafka与Linux环境下安装单机版Kafka以及搭建Kafka集群
Java操作Apache HBase API以及HBase和MapReduce整合
Java操作Apache HBase API以及Java操作HBase和MapReduce整合...
Hadoop之Hive基本操作
整理记录Hive数据库、数据表、数据类型、内部表与外部表、数据加载与导出、分区表、分桶表、Hive查询、Hive函数等基本操作。
大数据同步工具之DataX
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
分布式数据同步工具之DataX Web的基本使用
DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。
下一页