Python+大数据:零基础小白从0到1的成长之路

187 阅读4分钟

这是一个记录小白从0到1的大数据成长之路系列,会分享每天学习接收到的知识和感悟

目的是不仅能从学到的知识中引发更多的思考,查漏补缺,也能让未来和我一样的小白看到文章能够得到更多启蒙和成长。当然也希望各位看官们可以多关注点赞或者给予建议,让我可以保持初心和动力。

一、首先我们需要了解一下大数据的概念,它的作用是什么。

大数据研究专家维克托·迈尔-舍恩伯格博士说过:世界的本质是数据

那么大数据的定义就是:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据

数据的单位如下图:

{DE29C69F-E956-4CA5-860D-D38F9007B358}.png.jpg

目前的大数据应用,数据量主要集中在PB/EB级别

大数据解决的问题

  1. 海量数据的迁移:当数据库无法存储更多数据时,就需要迁移到更大的数据仓库,而如何去快速方便地迁移庞大的数据量,是企业所需要研究的一个方向。
  2. 海量数据的存储:数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
  3. 海量数据的运算:当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率

大数据的特点

  • 大:数据体量庞大
  • 多:种类和来源多样化
    种类:结构化、非结构化
    来源:日志、音频、视频等
  • 值:低价值密度,即数据分析所最终用到的数据量占比少
  • 快:速度快
    数据增长速度快
    处理速度也快
    获取数据的速度快
  • 信:数据的质量可信度高
    数据的准确性
    数据的可信赖度

大数据的应用场景

  • 金融借贷
  • 广告营销
  • 新媒体推送等

大数据业务分析的步骤

  1. 明确分析的目的思路:把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性

  2. 数据收集:一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查

  3. 数据处理:数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据

  4. 数据分析:数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程

  5. 数据展现:一般能用说明问题的就不用表格,能用表格说明问题的就不要用文字

那么大数据主要用到的:
1、操作系统:Linux
2、编程语言:SQL、Python、Java
3、核心框架:Hadoop、Hive、Spark、Flink

后续的学习也是围绕这些去进行。

大数据的主要业务可以大概理解为下图:

{DE29C69F-E956-4CA5-860D-D38F9007B358}.png.jpg 因为直观可靠的数据分析报告,很大程度影响决策者的最终判断决策,因此大数据的开发和分析十分重要。

二、简单了解后续需要学习的计算机和编程语言

  1. 计算机组成:硬件和软件

操作系统的作用: 承上启下 (硬件和应用软件之间的桥梁)

  • 硬件: 冯-诺依曼体系结构(运算器,控制器,输入设备,输出设备,存储器)

  • 软件: 系统软件(操作系统)和应用软件(各种浏览器,播放器,app等)

  1. 编程语言概念: 人和计算机交互的一种语言/方式

如果没有编程语言,人类无法将想要表达的信息传递给计算机

编程语言分类: 低级语言、高级语言、面向对象时代

面向对象语言: java 和 python

以python为例: 先根据python语法把自己想要打印的内容放到对应位置:print('你好'),然后python解释器翻译成二进制计算机进行识别

SQL: 结构化查询语言,是一个特殊的编程语言