首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
大数据老司机
创建于2022-04-16
订阅专栏
大数据
等 74 人订阅
共130篇文章
创建于2022-04-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
分布式开源协调服务——Zookeeper
一、ZooKeeper概述 特点: 顺序一致性 :来自客户端的更新将按照它们发送的顺序应用。 原子性 :更新成功或失败。没有部分结果。 单一系统映像 :客户端将看到相同的服务视图,而不管它连接到的服务
大数据Hadoop之——Kafka 图形化工具 EFAK(EFAK环境部署)
[TOC] 一、概述 源码: https://github.com/smartloli/kafka-eagle/ 下载: http://download.kafka-eagle.org/ 官方文档:h
大数据Hadoop之——数据采集存储到HDFS实战(Python版本)
要实现这个示例,必须先安装好hadoop和hive环境,环境部署可以参考我之前的文章: 大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce) 大数据Hadoop之——数
大数据Hadoop之——数据同步工具DataX
一、概述 Gitee:https://github.com/alibaba/DataX GitHub地址:https://github.com/alibaba/DataX 文档:https://git
大数据Hadoop之——数据同步工具Sqoop
一、概述 官网:https://sqoop.apache.org/ 官方文档:https://sqoop.apache.org/docs/1.99.7/index.html GitHub:https:
大数据Hadoop之——数据分析引擎Apache Pig
一、Apache Pig概述 官网:https://pig.apache.org/ 官方文档:https://pig.apache.org/docs/r0.17.0/ Apache Pig具有以下特点
大数据Hadoop之——任务调度器Oozie(Oozie环境部署)
一、概述 Oozie的特点: Oozie是管理hadoop作业的调度系统; Oozie的工作流作业是一系列动作的有向无环图(DAG); Oozie协调作业是通过时间(频率)和有效数据触发当前的Oozi
大数据Hadoop之——Hadoop图形化管理系统Hue(Hue环境部署)
一、概述 Hue官方网站:https://gethue.com/ 官方文档:http://cloudera.github.io/hue/latest/ GitHub:https://github.co
大数据Hadoop之——基于Hive的内存型SQL查询引擎Impala(Impala环境部署)
@[TOC] 一、概述 Impala 是可用于查询大数据的工具的补充。Impala 不会替代基于 MapReduce 构建的批处理框架,例如 Hive。Hive 和其他基于 MapReduce 构建的
大数据Hadoop之——Cloudera Hadoop(CM 6.3.1+CDH 6.3.2环境部署)
一、概述 1)目前比较流行Hadoop版本 Apache Hadoop Cloudera Hadoop(CDH) 2)CDH特点 灵活性——存储任何类型的数据并使用各种不同的计算框架对其进行操作,包括
大数据Hadoop之——基于内存型SQL查询引擎Presto(Presto-Trino环境部署)
一、概述 PrestoDB官方文档:https://prestodb.io/docs/current/ Trino官方文档:https://trino.io/docs/current/ 二、Trino
大数据Hadoop之——Azkaban API详解
一、Azkaban API概述 Azkaban 基本部分包括环境部署可以参考我之前的文章:大数据Hadoop之——任务调度器Azkaban(Azkaban环境部署) 二、Azkaban API具体使用
大数据Hadoop之——任务调度器Azkaban(Azkaban环境部署)
一、概述 1)什么是任务调度? 这些任务需要不同的运行环境,并且除了定时运行,各种类型之间的任务存在依赖关系,一张简单的任务依赖图如下: 2)常见任务调度工具 Crontab (Linux 自带命令,
Scala基础
一、概述 二、Scala发展历史 联邦理工学院的马丁·奥德斯基(Martin Odersky)于2001年开始设计Scala。 马丁·奥德斯基是编译器及编程的狂热爱好者,长时间的编程之后,希望发明一种
Git常用操作(Gitlab)
一、git概述 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同,
大数据Hadoop之——Flink CEP(Complex Event Processing:复合事件处理)详解(kafka on window)
一、概述 特征 目标:从有序的简单事件流中发现一些高阶特征; 输入:一个或多个简单事件构成的事件流; 处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件; 输出:满足规则的复杂事
大数据Hadoop之——Flink的状态管理和容错机制(checkpoint)
一、Flink中的状态 官方文档 数据流中的数据有重复,想对重复数据去重,需要记录哪些数据已经流入过应用,当新数据流入时,根据已流入过的数据来判断去重。 检查输入流是否符合某个特定的模式,需要将之前流
大数据Hadoop之——Flink中的Window API+时间语义+Watermark
@[TOC] 一、window 概念 Keyed Windows Non-Keyed Windows 一般真实的流都是无界的,怎样处理无界的数据? 可以把无限的数据流进行切分,得到有限的数据集进行处理
大数据Hadoop之——Flink DataStream API 和 DataSet API
一、DataStream API概述 二、什么是DataStream ? DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为
大数据Hadoop之——搭建本地flink开发环境详解(window10)
一、下载安装IDEA IDEA2020.2.3版本:https://www.cnblogs.com/liugp/p/13868346.html 最新版本安装详情请参考:https://www.jb51
下一页