首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据宝典
五分钟学大数据
创建于2021-05-14
订阅专栏
专注于大数据技术讲解,大数据面试真题解析
等 59 人订阅
共76篇文章
创建于2021-05-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hadoop企业级生产调优手册(二)
「这是我参与11月更文挑战的第27天,活动详情查看:2021最后一次更文挑战」。 上节:Hadoop企业级生产调优手册(一) 五、HDFS存储优化 注:演示纠删码和异构存储需要一共 5 台虚拟机。尽量
Hadoop企业级生产调优手册(一)
「这是我参与11月更文挑战的第26天,活动详情查看:2021最后一次更文挑战」。 一、HDFS核心参数 1.1 NameNode内存生产配置 1. NameNode 内存计算 每个文件块大概占用 15
ETL工具算法构建企业级数据仓库五步法
「这是我参与11月更文挑战的第25天,活动详情查看:2021最后一次更文挑战」。 01 什么是ETL? ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是
基于 Flink 搭建实时平台
「这是我参与11月更文挑战的第24天,活动详情查看:2021最后一次更文挑战」。 一、前言 在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量
Redis 实现限流的三种方式
「这是我参与11月更文挑战的第23天,活动详情查看:2021最后一次更文挑战」。 面对越来越多的高并发场景,限流显示的尤为重要。当然,限流有许多种实现的方式,Redis具有很强大的功能,我用Redis
基于 OneData 的数据仓库方法论
「这是我参与11月更文挑战的第22天,活动详情查看:2021最后一次更文挑战」。 OneData 是阿里巴巴内部进行数据整合和管理方法体系和工具。 指导思想 首先,要进行充分的业务调研和需求分析。 其
HBase 调优详细剖析
「这是我参与11月更文挑战的第21天,活动详情查看:2021最后一次更文挑战」。 1. 通用优化 NameNode的元数据备份使用SSD。 定时备份NameNode上的元数据,每小时或者每天备份,如果
HBase 的协处理器详细剖析
「这是我参与11月更文挑战的第20天,活动详情查看:2021最后一次更文挑战」。 1. 起源 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操
HBase 的预分区及 rowkey 设计技巧
「这是我参与11月更文挑战的第19天,活动详情查看:2021最后一次更文挑战」。 一、HBase 的预分区 1. 为何要预分区? 增加数据读写效率 负载均衡,防止数据倾斜 方便集群容灾调度 regio
HBase 基础及核心架构解析
「这是我参与11月更文挑战的第18天,活动详情查看:2021最后一次更文挑战」。 一、HBase 基础 1. HBase 基本介绍 简介 HBase 是 BigTable 的开源 Java 版本。是建
最强最全面的数仓建设规范指南(二)
「这是我参与11月更文挑战的第17天,活动详情查看:2021最后一次更文挑战」。 上节:最强最全面的数仓建设规范指南(一) 三、数仓各层开发规范 1. ODS层设计规范 同步规范: 一个系统源表只允许
最强最全面的数仓建设规范指南(一)
「这是我参与11月更文挑战的第16天,活动详情查看:2021最后一次更文挑战」。 目录: 一、数据模型架构原则 数仓分层原则 主题域划分原则 数据模型设计原则 二、数仓公共开发规范 层次调用规范 数据
Hive 架构与表类型
「这是我参与11月更文挑战的第14天,活动详情查看:2021最后一次更文挑战」。 一. Hive架构 1.1 hive的简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为
Hadoop Yarn的架构和原理
「这是我参与11月更文挑战的第13天,活动详情查看:2021最后一次更文挑战」。 1. yarn的基本介绍和产生背景 YARN是Hadoop2引入的通用的资源管理和任务调度的平台,可以在YARN上运行
一文读懂Hive数据存储格式
「这是我参与11月更文挑战的第12天,活动详情查看:2021最后一次更文挑战」。 本文讲解 Hive 的数据存储,是 Hive 操作数据的基础。选择一个合适的底层数据存储文件格式,即使在不改变当前 H
Kafka中的数据不丢失机制及CAP理论详解
「这是我参与11月更文挑战的第11天,活动详情查看:2021最后一次更文挑战」。 1. 生产者生产数据不丢失 发送消息方式 生产者发送给kafka数据,可以采用同步方式或异步方式 同步方式: 发送一批
实战 | 超详细的Kafka集群操作
「这是我参与11月更文挑战的第10天,活动详情查看:2021最后一次更文挑战」。 1. 创建topic 创建一个名字为test的主题, 有三个分区,有两个副本: 2. 查看主题命令 查看kafka当中
详细剖析Kafka架构及组件
「这是我参与11月更文挑战的第9天,活动详情查看:2021最后一次更文挑战」。 1. kafka架构 生产者API 允许应用程序发布记录流至一个或者多个kafka的主题(topics)。 消费者API
Apache Pulsar与Apache Kafka在性能、应用、生态等全方位对比
「这是我参与11月更文挑战的第8天,活动详情查看:2021最后一次更文挑战」。 Pulsar Apahce Pulasr是一个企业级的发布-订阅消息系统,最初是由雅虎开发,是下一代云原生分布式消息流平
数据仓库之数据质量建设(深度好文)
「这是我参与11月更文挑战的第7天,活动详情查看:2021最后一次更文挑战」。 数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据
下一页