「这是我参与11月更文挑战的第5天,活动详情查看:2021最后一次更文挑战」
三次信息化浪潮
| 信息化浪潮 | 发生时间 | 标志 | 解决的问题 | 代表企业 |
|---|---|---|---|---|
| 第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM |
| 第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴 |
| 第三次浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 亚马逊、谷歌、阿里云 |
大数据的特点
- 数据量大
- 数据类型繁多
- 处理速度快
- 价值密度低
- 真实性
hdfs最终数据块的存储位置
datanode的位置
Master主服务器的作用
Master主服务器主要负责表和Region的管理工作。
管理用户对表的增加、删除、修改、查询等操作。
实现不同Region服务器之间的负载均衡。
在Region分裂或合并后,负责重新调整Region的分布。
对发生故障失效的Region服务器上的Region进行迁移。
Region的作用
维护master分配给他的region,处理对这些region的io请求
负责切分正在运行过程中变的过大的region
Hadoop的特性:
高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。
HBase
是一个提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。
HBase访问接口
Native Java API 特点:最常规和高效的访问方式 场合:适合Hadoop MapReduce Job并行批处理HBase表数据。
HBase Shell 特点:HBase的命令行工具,最简单的接口 场合:适合HBase管理使用。
HBase编程实践
格式化命令:./bin/hdfs namenode -format
创建文件夹:hadoop fs -mkdir [-p] (-p用于递归创建,-r多级目录)
每一个Strore对应一个列族
hadoop核心配置文件
core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hadoop.tmp.dir:用来存放hadoop运行过程中临时文件的目录
fs.defaultFS:默认的文件系统的名称
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
dfs.replication:表示冗余数,伪分布式要设置为1。
dfs.namenode.name.dir:表示本地磁盘目录,是存储fsimage文件的地方,作用是存放 hadoop的名称节点namenode里的metadata
dfs.datanode.data.dir:作用是存放hadoop的数据节点datanode里的多个数据块。
hadoop的特性
- 高可靠性
- 高效性
- 高扩展性
- 高容错性
- 成本低
- 运行在Linux平台上
- 支持多种编程语言
名称节点和数据节点
| NameNode | DataNode |
|---|---|
| 存储元数据 | 存储文件内容 |
| 元数据存在内存中 | 文件内容保存在磁盘中 |
| 保存文件Block于DataNode间的映射关系 | 维护Block与DataNode本地文件的映射关系 |
HBase的功能组件
- 库函数
- 一个Master主服务器
- 许多个Region服务器
云计算
· 云计算3种典型的服务模式:IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)。补充:DaaS(数据即服务)
· 云计算的3种类型:公有云、私有云和混合云。
· 云计算的关键技术:虚拟化、分布式存储、分布式计算、多租户等。
· 云计算的概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最有代表性的网络计算技术与模式。
物联网
-
物联网的4层架构:感知层、网络层、处理层和应用层。
-
大数据与云计算、物联网的联系:云计算为大数据提供了技术基础,大数据为云计算提供用武之地;物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑;云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间。
-
大数据与云计算、物联网的区别:大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。