开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第2天juejin.cn/post/716729…
大数据基本概念
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。
大数据基本特点
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
个人浅薄理解
针对大数据技术、工作内容的理解:
通过一定的数据采集、清洗、处理、分析工具、收集并获取海量数据,利用Java、Scala、Python、SQL等语言进行复杂的分布式运算,最终对已产生数据进行复盘统计分析、对未来可能产生的结果数据进行预测的手段。
这是一个粗浅的解释,大数据的目的并非是监测一言一行、窥探个人的隐私、最主要的是通过对于个体信息的采集与分析,监控相关行业的稳定性,规避风险,推动新业务发展,造福人类。
大数据就业薪资举例
常见大数据JD技能需求
职位技能分析
- 开源组件的离线/存储分析系统-> 技术栈涉及Hadoop、Hive、Spark、Flink、HBase、Impala
- 大数据分析体系构建-> 数据仓库模型思维
- 数据敏感,挖掘有价值信息-> 基本的数据分析能力、数据挖掘能力
- 代码的相关性要求-> 从评审设计到开发复盘整理的一系列元素
职位要求
- 相关行业经验:入行时应该带着深挖行业经验的心态去学习,比如车联网相关,要对实时数据处理分析非常了解、代表公司滴滴、T3等,金融行业,投行,银行业,要了解相关金融知识,比如风控,贷前,贷后,资产质量评估等等
- 编程基础:推荐Java为主、SQL为辅,大部分组件都是Java开发的,了解Java语言非常重要、同时因为大数据很多打包发布处理都要在Linux上操作、所以基本的Linux命令和Shell相关的内容也需要了解
- 组件框架:Hadoop、Flink、Spark、kafka、针对离线数仓相关,对SQL要求比较高,针对实时数据,对Flink要求比较高,大多复杂场景需要深度理解框架,修改框架,进行二次开发,代表:网易猛犸大数据平台,华为鲲鹏大数据平台,星环TDH大数据平台
- 数据治理思维:业务产生的数据可能并没有一定的数据分类规则,治理工程师就需要去归纳总结一定的治理规范,结合公司场景制定相关的数据治理标准,如开发脚本的命名,表命名,分组命名,定时任务命名规范,开发要求,等等。
- 沟通能力:非常重要,这一点,光会Coding、不会沟通等于闲的,技术人最终的出路是解决业务难题,更深层次的了解业务,结合业务,螺旋式上升提升技术才是长久之道,这不代表你不对技术做太高的要求,相反,能够结合业务本身去理解,做出更多提升效能,转化经济价值的软件与内容才能走的更远。所以沟通能力非常重要,沟通是你了解业务,深挖业务的前提,良好的沟通能力可以建立好小组工作之间的氛围,有效地沟通可以极大地提升效率。