大数据处理基本过程

2 阅读1分钟

初入大数据领域一个月,记录基础知识与整体架构。 大数据概述 指常规软件无法处理的海量、高增长、多样化数据集,需新处理模式。5V特点:大量、高速、多样、低价值密度、真实。 处理流程:采集→清洗→加工→展现。 采集方式 批采集:MaxCompute每日抓取数据库快照。 实时接口:DataHub高吞吐低延迟,通过SDK记录后台调用并持续写入。 前端埋点:按业务需求设置,经流传输进入数仓。 清洗/预处理:如IP转地址、过滤脏数据。 数据处理 离线批处理(MaxCompute/DataWorks):托管PB级数仓,编写脚本定时调度,产出日报。 实时处理(Storm):Spout读取数据源,通过Stream传递Tuple,Bolt执行逻辑(需自行持久化),组合为Topology提交运行。 数据展现 使用DataV: 直连数据库,SQL查询并格式化; 或通过API接口获取数据渲染。 心得:初期易重功能轻数据,需建立完整可复用的维度,便于后续KPI组合。采用MVP思路快速迭代,类似敏捷开发。当前为初步记录,欢迎指正。