首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据技术
庄小焱
创建于2025-01-21
订阅专栏
对海量、多样化数据进行采集、存储、管理、分析和应用的一系列技术手段。它能够从大量复杂的数据中提取有价值的信息,帮助企业或组织更好地理解市场趋势、用户行为等,从而做出更科学的决策。
等 6 人订阅
共36篇文章
创建于2025-01-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据存储域——Hive数据仓库工具
Hive是一个构建在Hadoop之上的数据仓库工具,本质上是SQL到MapReduce的转换器,适合海量数据的批处理查询。与传统数据库相比,它存储在HDFS上,计算执行依赖MapReduce等,
大数据存储域——HBase数据库
本文介绍了 HBase 数据库,包括其特点、组件、数据模型、数据写入与读取流程等基础知识,并分享了 HBase 实战经验总结,如性能指标、使用场景、与 HDFS 的关系、WAL 机制、数据删除原理
大数据存储域——HDFS存储系统
本文介绍了HDFS存储系统,包括其组件、工作机制、实战经验总结、使用场景以及与SpringBoot的实战示例和优化设计。HDFS由Client、NameNode、SecondaryNameNod原理
大数据存储域——Kafka实战经验总结
Kafka 的实战经验,重点探讨了 Kafka 的分区副本机制、ISR 与非 ISR 节点的概念及作用、Leader 选举流程以及与 ZooKeeper 的关系等内容,旨在帮助读者深入理解 Kafka
【离线数仓项目】——系统监控与数据分析实战
本文主要围绕离线数仓项目中的任务调度与数据可视化实战展开,介绍了业务流程虚拟节点、离线数仓任务调度、数据可视化等方面的内容,涉及DataWorks和QuickBI等工具的使用,并提供了相关的博文
【离线数仓项目】——电商域ADS层开发实战
本文主要介绍了电商域离线数仓项目中ADS层的开发实战。首先阐述了ADS层的定义、作用、设计特征及示例,接着详细介绍了ADS层的设计规范,包括命名、表结构、分区与性能、数据一致性与可追溯性、适配下
【离线数仓项目】——电商域DWS层开发实战
本文主要介绍了电商域离线数仓项目中DWS层的开发实战。DWS层是数据仓库中承接DWD明细层之上的汇总/主题/服务层,通过对明细数据的聚合、归类、计算和整合,形成面向分析和服务的业务主题数据表。
【离线数仓项目】——电商域DWD层开发实战
本文主要介绍了离线数仓项目中电商域DWD层的开发实战。DWD层是数据仓库架构中的明细数据层,对ODS层的原始数据进行清洗、规范、整合与业务建模。它具有数据清洗、标准化、业务建模、整合、维度挂载等
【离线数仓项目】——电商域DIM层开发实战
本文主要介绍了电商域离线数仓项目中DIM层的开发实战。首先阐述了DIM层的简介、作用、设计特征、典型维度分类以及交易支付场景下的表示例和客户维度表设计。接着介绍了DIM层设计规范,包括表结构设计等
【离线数仓项目】——电商域ODS层开发实战
本文主要介绍了数据仓库中ODS层的开发实战,包括ODS层的定义、作用、设计特征、采集策略、开发实战、调度示例以及数据存储思考。ODS层作为数据仓库的底层,用于存储从各业务系统同步过来的原始数据,
【离线数仓项目】——数据同步策略实战
本文主要介绍了数据同步策略的实战应用,包括全量同步、增量同步、CDC、批处理和流式同步等多种方案,并总结了它们的适用场景和优缺点。同时,详细探讨了数据同步过程中可能出现的异常情况及解决方案等
【离线数仓项目】——数据模型开发实战
本文主要介绍了电商业务背景下的离线数据仓库项目,包括业务域划分、核心业务域、业务核心流程以及电商业务数据模型。详细阐述了如何基于业务职能和数据主体进行业务域划分,如用户域、交易域等,并列举了电商建模等
【离线数仓项目】——数据建模设计实战
本文详细介绍了离线数仓项目中的数据建模与数仓设计。数据建模面向主题域组织数据,构建多维数据结构,统一业务口径,实现数据的可理解、可追溯、可复用和可扩展。介绍了数仓常见建模方法,包括维度建模等
【离线数仓项目】——数仓开发流程实战
本文围绕离线数仓项目展开,重点阐述了电商业务需求分析、架构与模型设计、数仓系统性能基准以及性能相关指标优化等内容。在电商业务需求分析方面,强调了充分调研的重要性,包括了解组织架构、业务架构、等
【离线数仓项目】——离线大数据系统设计
本文详细介绍了离线大数据系统的设计背景、实时系统与离线系统的对比、离线大数据系统的作用以及技术设计等内容。离线大数据系统适用于数据量大、计算复杂且对实时性要求不高的场景,可满足企业数据分析等
大数据治理域——计算管理
本文主要探讨了大数据治理域中的计算管理问题,特别是系统优化和任务优化两个方面。文章首先指出MaxCompute集群任务众多,资源消耗巨大,因此需要优化计算资源以提高性能和任务产出时间。文章介绍了
大数据治理域——数据挖掘
本文主要介绍了阿里巴巴在大数据治理域中的数据挖掘设计。随着数据量的爆炸式增长,阿里巴巴从使用传统的商业挖掘软件,发展到构建自己的机器学习算法平台,以应对海量数据的挖掘需求。文章概述了数据挖掘的重
大数据治理域——数据服务
本文详细介绍了阿里数据服务架构的演进历程,从DWSOA到OneService的四个阶段,每个阶段都有其独特特点及面临的问题。同时,文章还探讨了技术架构、数据服务最佳实践等多方面内容,包括性能优化
大数据治理域——实时数据开发
本文深入探讨了大数据治理域中的实时数据开发,重点介绍了流式数据处理的核心价值、特点、技术挑战、典型能力和应用场景。同时,详细阐述了流式技术架构,包括数据采集、处理、存储和服务等环节,并针对大促场
下一页