首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据之路
橙子猿
创建于2022-04-06
订阅专栏
本专栏分享大数据相关开源组件及技术的原理与实战,希望大家关注!
等 4 人订阅
共35篇文章
创建于2022-04-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
es的UI界面elasticsearch-head插件安装
安装elasticsearch-head插件 由于es服务启动之后,访问界面比较丑陋,为了更好的查看索引库当中的信息,我们可以通过安装elasti
flink中的Time、Window(窗口)、Windows Function(窗口函数)
flink 中的streaming定义了多种流式处理的时间,Event Time(事件时间)、Ingestion Time(接收时间)、Processing Time(处理时间)。
flink中的state理解
Apache Flink® — Stateful Computations over Data Streams,数据流上的状态计算。可以看出flink默认它是一个默认就有状态的分析引擎,State一般
ELK简介、elasticsearch安装部署
一、ELK的基本介绍 1、ELK日志协议栈 ELK是三个软件产品的首字母缩写,Elasticsearch,Logstash 和 Kibana。这三款软件都是开源软件,通常是配合使用,而且又先后归于 E
canal介绍、原理、部署、使用
简介 canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴
flume自定义拦截器
简单需求: 向文件中定时新增日期数据,采集该文件, 通过自定义source拦截器给日期数据加上自己姓名作为前缀,输出到控制台。 分析: 需求很简单
hive使用udf
在使用hive时难免会碰到hive的函数解决不了的操作,这时我们就可以开发UDF函数去解决复杂的问题。 udf函数分类: UDF : User-Defined Function (用户自定义函数)一进
zookeeper集群安装
我这里是有3台服务器,分别hostname为node01、node02、node03。 三台机器已经配置好了ssh。 zookeeper使用的是cdh5的zookeeper包,没有使用原生
mongodb复制集windows server部署
安装完成后我们需要启动三个mongod的服务来做为复制集的三个节点,我们可以直接打开cmd,使用mongod来根据不同的配置启动服务。例如:参考如下四张图,由于我安装的磁盘足够存放mongodb的数据
hive使用split、cancat、collect_set、sort_array的一些示例及注意事项
废话不多说,我们直接使用一个使用例子来进行说明他们的功能 例如:将periodical_code表中的p_year、p_year_stage两个字段连接成json字符串,然后分组收集到array里
HBase分布式数据库概念与实操
Client是操作HBase集群的入口,对于管理类的操作,如表的增、删、改操纵,Client通过RPC与HMaster通信完成,对于表数据的读写操作,Client通过RPC与RegionServer
搭建学习使用的大数据集群环境:windows使用vmware安装三台虚拟机,配置好网络环境
安装三台linux服务器 1. 安装VMWare VMWare虚拟机软件是一个“虚拟PC”软件,它使你可以在一台机器上同时运行多个Windows、
flink保证Exactly Once的方式、原理
满足三点,可以保证端到端的Exactly Once 开启checkpoint source支持数据重发 sink端幂等性写入、事务性写入。我们常使用事务性写入 分布式快照机制(checkpoint)
flume自定义拦截器练习
向文件中定时新增日期数据,采集该文件, 通过自定义source拦截器给日期数据加上自己姓名作为前缀,输出到控制台。 分析: 需求很简单,主要在于练习flume自定义拦截器的流程,我们需要使
ElasticSearch概念与实践
Elasticsearch是面向文档(document oriented)的,可以存储整个对象或文档(document)、索引(index)每个文档的内容,可以快速搜索。Elasticsearch中,