大数据体系 | 青训营笔记

**这是我参与「第四届青训营 」笔记创作活动的的第1天**

小白第一次学习大数据,想要高效的学习,就要先了解大数据的体系结构。  

 小白第一次学习大数据,想要高效的学习,就要先了解大数据的体系结构。什么是体系结构呢?
 本掘认为想要了解大数据的体系结构,先是要知道大数据需要完成一个什么样的事情,需要先了解大数据的概念。

大数据的概念

 浅翻一下现在的主流搜索引擎~(是的,是百度,也翻了其他的,但是百度说得很好,其他的都直接朝解决方案和功能上说了(小白之言!))

 关键词:

  1. 规模巨大到无法透过主流软件工具在合理时间内达到目的。(当今事实
  2. 对所有数据进行分析处理。(我们要做的事情
  3. 5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。(大数据的特点

 通过对大数据概念的了解,我将它理解为需要从大(海)量实时的非结构化原始数据里面找到可以有利用价值的信息。
 那么整个大数据的技术体系,都是围绕着解决这个问题展开,即从底层接触到原始数据的那个层次点开始,大数据体系里的所有技术都是为了在某方面解决大数据特点问题的某一个或者多个。
 下图是今天青训营开营第一课中老师讲到的大数据体系结构: image.png 从底层向上层一层层地看:

基础设施

体系的最下层是数据被存储的物理基础设施,基础设施有本地存储和云端存储(云服务器ECS(一般指公有云)和虚拟私有云VPC)

存储系统

在有了数据存储的基础设施以后,存储系统将规定数据以怎样的方式进行存储,结构、半结构以及非结构化的数据以怎样的方式组织能够更好地服务业务所需要的时空效率和安全可靠。

资源调度

在需要访问已经通过存储系统存放在基础设施上的数据时,通过调配服务器上适度的计算和内存资源对数据资源直接进行高速可靠的访问。

分析引擎(下一篇笔记说吧,先说一下大概)

分析引擎是第一次课程讲解的重点,讲解的主要内容是:

  1. SQL语法从语法输入到执行的全过程(用户输入SQL语句->执行通过资源调度访问基础设施上存储系统中的数据(有点口干还不知道说的对不对))
  2. 查询优化器对SQL语法语义的优化方式和优化过程
  3. SQL前沿正在解决的问题以及与AI的融合能够解决哪些问题
权限管控

权限管控主要是针对数据安全性所采取的措施,通过控制访问数据的用户所拥有的权限,让数据的访问即既灵活又不失安全性。

数据开发

完成大数据任务的组件,将大数据任务拆解为有向无环图并优化算子(处处优化)

业务应用

略略略

第一次课的内容还没有写完,有点时间就写一点。