大数据技术原理与应用部分知识点(1)

739 阅读4分钟

「这是我参与11月更文挑战的第5天,活动详情查看:2021最后一次更文挑战

三次信息化浪潮

信息化浪潮发生时间标志解决的问题代表企业
第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM
第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴
第三次浪潮2010年前后物联网、云计算和大数据信息爆炸亚马逊、谷歌、阿里云

 

大数据的特点

  • 数据量大
  • 数据类型繁多
  • 处理速度快
  • 价值密度低
  • 真实性

hdfs最终数据块的存储位置

datanode的位置

Master主服务器的作用

        Master主服务器主要负责表和Region的管理工作。

    管理用户对表的增加、删除、修改、查询等操作。

    实现不同Region服务器之间的负载均衡。

    在Region分裂或合并后,负责重新调整Region的分布。

    对发生故障失效的Region服务器上的Region进行迁移。

  Region的作用

    维护master分配给他的region,处理对这些region的io请求

    负责切分正在运行过程中变的过大的region

Hadoop的特性:

高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。

HBase

是一个提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。

HBase访问接口

Native Java API 特点:最常规和高效的访问方式 场合:适合Hadoop MapReduce Job并行批处理HBase表数据。

HBase Shell 特点:HBase的命令行工具,最简单的接口  场合:适合HBase管理使用。

HBase编程实践

image.png   image.png

image.png

格式化命令:./bin/hdfs namenode -format

创建文件夹:hadoop fs -mkdir [-p]     (-p用于递归创建,-r多级目录)

每一个Strore对应一个列族

image.png

hadoop核心配置文件

core-site.xml

 <configuration>

    <property>

        <name>hadoop.tmp.dir</name>

       <value>file:/usr/local/hadoop/tmp</value>

       <description>Abase for other temporary directories.</description>

    </property>

     <property>

         <name>fs.defaultFS</name>

         <value>hdfs://localhost:9000</value>

     </property>

</configuration>

hadoop.tmp.dir:用来存放hadoop运行过程中临时文件的目录

fs.defaultFS:默认的文件系统的名称

hdfs-site.xml



 <configuration>

     <property>

         <name>dfs.replication</name>

         <value>1</value>

     </property>

     <property>

          <name>dfs.namenode.name.dir</name>

          <value>file:/usr/local/hadoop/tmp/dfs/name</value>

     </property>

     <property>

          <name>dfs.datanode.data.dir</name>

          <value>file:/usr/local/hadoop/tmp/dfs/data</value>

     </property>

</configuration>

dfs.replication:表示冗余数,伪分布式要设置为1。

dfs.namenode.name.dir:表示本地磁盘目录,是存储fsimage文件的地方,作用是存放   hadoop的名称节点namenode里的metadata

dfs.datanode.data.dir:作用是存放hadoop的数据节点datanode里的多个数据块。

hadoop的特性

  • 高可靠性
  • 高效性
  • 高扩展性
  • 高容错性
  • 成本低
  • 运行在Linux平台上
  • 支持多种编程语言

名称节点和数据节点

NameNodeDataNode
存储元数据存储文件内容
元数据存在内存中文件内容保存在磁盘中
保存文件Block于DataNode间的映射关系维护Block与DataNode本地文件的映射关系

HBase的功能组件

  • 库函数
  • 一个Master主服务器
  • 许多个Region服务器

云计算

· 云计算3种典型的服务模式:IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)。补充:DaaS(数据即服务)

· 云计算的3种类型:公有云、私有云和混合云。

· 云计算的关键技术:虚拟化、分布式存储、分布式计算、多租户等。

· 云计算的概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最有代表性的网络计算技术与模式。

物联网

  • 物联网的4层架构:感知层、网络层、处理层和应用层。

  • 大数据与云计算、物联网的联系:云计算为大数据提供了技术基础,大数据为云计算提供用武之地;物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑;云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间。

  • 大数据与云计算、物联网的区别:大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。