大数据技术原理与应用部分知识点（1）「这是我参与11月更文挑战的第5天，活动详情查看：2021最后一次更文挑战」大数据计

「这是我参与11月更文挑战的第5天，活动详情查看：2021最后一次更文挑战」

三次信息化浪潮

信息化浪潮	发生时间	标志	解决的问题	代表企业
第一次浪潮	1980年前后	个人计算机	信息处理	Intel、AMD、IBM
第二次浪潮	1995年前后	互联网	信息传输	雅虎、谷歌、阿里巴巴
第三次浪潮	2010年前后	物联网、云计算和大数据	信息爆炸	亚马逊、谷歌、阿里云

大数据的特点

数据量大
数据类型繁多
处理速度快
价值密度低
真实性

hdfs最终数据块的存储位置

datanode的位置

Master主服务器的作用

Master主服务器主要负责表和Region的管理工作。

    管理用户对表的增加、删除、修改、查询等操作。

    实现不同Region服务器之间的负载均衡。

    在Region分裂或合并后，负责重新调整Region的分布。

    对发生故障失效的Region服务器上的Region进行迁移。

Region的作用

    维护master分配给他的region，处理对这些region的io请求

    负责切分正在运行过程中变的过大的region

Hadoop的特性：

高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。

HBase

是一个提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用HDFS作为其底层数据存储。

HBase访问接口

Native Java API 特点：最常规和高效的访问方式场合：适合Hadoop MapReduce Job并行批处理HBase表数据。

HBase Shell 特点：HBase的命令行工具，最简单的接口场合：适合HBase管理使用。

HBase编程实践

格式化命令：./bin/hdfs namenode -format

创建文件夹：hadoop fs -mkdir [-p] (-p用于递归创建，-r多级目录)

每一个Strore对应一个列族

hadoop核心配置文件

core-site.xml

 <configuration>

    <property>

        <name>hadoop.tmp.dir</name>

       <value>file:/usr/local/hadoop/tmp</value>

       <description>Abase for other temporary directories.</description>

    </property>

     <property>

         <name>fs.defaultFS</name>

         <value>hdfs://localhost:9000</value>

     </property>

</configuration>

hadoop.tmp.dir：用来存放hadoop运行过程中临时文件的目录

fs.defaultFS：默认的文件系统的名称

hdfs-site.xml



 <configuration>

     <property>

         <name>dfs.replication</name>

         <value>1</value>

     </property>

     <property>

          <name>dfs.namenode.name.dir</name>

          <value>file:/usr/local/hadoop/tmp/dfs/name</value>

     </property>

     <property>

          <name>dfs.datanode.data.dir</name>

          <value>file:/usr/local/hadoop/tmp/dfs/data</value>

     </property>

</configuration>

dfs.replication：表示冗余数，伪分布式要设置为1。

dfs.namenode.name.dir：表示本地磁盘目录，是存储fsimage文件的地方，作用是存放 hadoop的名称节点namenode里的metadata

dfs.datanode.data.dir：作用是存放hadoop的数据节点datanode里的多个数据块。

hadoop的特性

高可靠性
高效性
高扩展性
高容错性
成本低
运行在Linux平台上
支持多种编程语言

名称节点和数据节点

NameNode	DataNode
存储元数据	存储文件内容
元数据存在内存中	文件内容保存在磁盘中
保存文件Block于DataNode间的映射关系	维护Block与DataNode本地文件的映射关系

HBase的功能组件

库函数
一个Master主服务器
许多个Region服务器

云计算

· 云计算3种典型的服务模式：IaaS（基础设施即服务）、PaaS（平台即服务）、SaaS（软件即服务）。补充：DaaS（数据即服务）

· 云计算的3种类型：公有云、私有云和混合云。

· 云计算的关键技术：虚拟化、分布式存储、分布式计算、多租户等。

· 云计算的概念：云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施，是近年来最有代表性的网络计算技术与模式。

物联网

物联网的4层架构：感知层、网络层、处理层和应用层。
大数据与云计算、物联网的联系：云计算为大数据提供了技术基础，大数据为云计算提供用武之地；物联网是大数据的重要来源，大数据技术为物联网数据分析提供支撑；云计算为物联网提供海量数据存储能力，物联网为云计算技术提供了广阔的应用空间。
大数据与云计算、物联网的区别：大数据侧重于对海量数据的存储、处理与分析，从海量数据中发现价值，服务于生产和生活；云计算本质上旨在整合和优化各种IT资源，并通过网络以服务的方式廉价地提供给用户；物联网的发展目标是实现物物相连，应用创新是物联网发展的核心。