大数据处理基本过程初入大数据领域一个月，记录基础知识与整体架构。大数据概述指常规软件无法处理的海量、高增长、多样化数

初入大数据领域一个月，记录基础知识与整体架构。大数据概述指常规软件无法处理的海量、高增长、多样化数据集，需新处理模式。5V特点：大量、高速、多样、低价值密度、真实。处理流程：采集→清洗→加工→展现。采集方式批采集：MaxCompute每日抓取数据库快照。实时接口：DataHub高吞吐低延迟，通过SDK记录后台调用并持续写入。前端埋点：按业务需求设置，经流传输进入数仓。清洗/预处理：如IP转地址、过滤脏数据。数据处理离线批处理（MaxCompute/DataWorks）：托管PB级数仓，编写脚本定时调度，产出日报。实时处理（Storm）：Spout读取数据源，通过Stream传递Tuple，Bolt执行逻辑（需自行持久化），组合为Topology提交运行。数据展现使用DataV：直连数据库，SQL查询并格式化；或通过API接口获取数据渲染。心得：初期易重功能轻数据，需建立完整可复用的维度，便于后续KPI组合。采用MVP思路快速迭代，类似敏捷开发。当前为初步记录，欢迎指正。