这是一个记录小白从0到1的大数据成长之路系列,会分享每天学习接收到的知识和感悟
目的是不仅能从学到的知识中引发更多的思考,查漏补缺,也能让未来和我一样的小白看到文章能够得到更多启蒙和成长。当然也希望各位看官们可以多关注点赞或者给予建议,让我可以保持初心和动力。
一、首先我们需要了解一下大数据的概念,它的作用是什么。
大数据研究专家维克托·迈尔-舍恩伯格博士说过:世界的本质是数据。
那么大数据的定义就是:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据
数据的单位如下图:
目前的大数据应用,数据量主要集中在PB/EB级别
大数据解决的问题
- 海量数据的迁移:当数据库无法存储更多数据时,就需要迁移到更大的数据仓库,而如何去快速方便地迁移庞大的数据量,是企业所需要研究的一个方向。
- 海量数据的存储:数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
- 海量数据的运算:当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。
大数据的特点
- 大:数据体量庞大
- 多:种类和来源多样化
种类:结构化、非结构化
来源:日志、音频、视频等 - 值:低价值密度,即数据分析所最终用到的数据量占比少
- 快:速度快
数据增长速度快
处理速度也快
获取数据的速度快 - 信:数据的质量可信度高
数据的准确性
数据的可信赖度
大数据的应用场景
- 金融借贷
- 广告营销
- 新媒体推送等
大数据业务分析的步骤
-
明确分析的目的思路:把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性
-
数据收集:一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查
-
数据处理:数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据
-
数据分析:数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程
-
数据展现:一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
那么大数据主要用到的:
1、操作系统:Linux
2、编程语言:SQL、Python、Java
3、核心框架:Hadoop、Hive、Spark、Flink
后续的学习也是围绕这些去进行。
大数据的主要业务可以大概理解为下图:
因为直观可靠的数据分析报告,很大程度影响决策者的最终判断决策,因此大数据的开发和分析十分重要。
二、简单了解后续需要学习的计算机和编程语言
- 计算机组成:硬件和软件
操作系统的作用: 承上启下 (硬件和应用软件之间的桥梁)
-
硬件: 冯-诺依曼体系结构(运算器,控制器,输入设备,输出设备,存储器)
-
软件: 系统软件(操作系统)和应用软件(各种浏览器,播放器,app等)
- 编程语言概念: 人和计算机交互的一种语言/方式
如果没有编程语言,人类无法将想要表达的信息传递给计算机
编程语言分类: 低级语言、高级语言、面向对象时代
面向对象语言: java 和 python
以python为例: 先根据python语法把自己想要打印的内容放到对应位置:print('你好'),然后python解释器翻译成二进制计算机进行识别
SQL: 结构化查询语言,是一个特殊的编程语言