大数据导论

308 阅读35分钟

1.请阐述数据的基本类型:

数据类型包括文本,图片,音频,视频等

数据组织形式包括文件和数据库

2.请阐述把数据变得可用需要经过那几个步骤

数据清洗,数据管理,数据分析

3.请阐述大数据发展的3个重要阶段

萌芽期:数据挖掘理论和数据库技术逐步成熟

成熟期:web2.0

大规模应用期:大数据应用渗透各行各业

4.请阐述大数据的“4V”特性。

数据量大,数据类型繁多,处理速度快,价值密度低

5.请阐述人工智能有哪些关键技术

机器学习,知识图谱,自然语言处理

人机交互,计算机视觉(人脸识别,图像检索,游戏和控制,监测,智能汽车),生物特征识别

AR/VR(虚拟现实/增强现实)

6.请阐述区块链和大数据的关系

区别:

数据量,结构化和非结构化,独立和整合

直接和间接,CAP理论,基础网络

价值来源,计算模式

联系:

区块链式使大数据极大降低信用成本

区块链是构建大数据时代的信任基石

区块链是促进大数据价值流通的管道

7.请阐述传统的数据安全的威胁主要包括哪些

计算机病毒

黑客攻击

数据信息存储介质的损坏

8.请阐述大数据安全与传统数据安全的不同

大数据成为网络攻击的显著目标

大数据加大隐私泄露风险

大数据技术被应用到攻击手段中

大数据成为高级可持续攻击的载体

9.请阐述大数据时代人类思维方式的转变主要体现在哪些方面。

全样而非抽样,效率而非精确,相关而非因果

以数据为中心,我为人人,人人为我

10.请阐述什么是长尾理论

推荐系统通过发掘用户的历史记录,找到用户的个性化需求,发现用户潜在的消费倾向,从而将长尾商品准确地推荐给可能需要它的用户,帮助用户发现那些他们感兴趣却很难发现的商品,最终实现用户与商家双赢

11.推荐系统的本质是建立用户与商品的联系,根据推荐算法的不同,请用述推荐方法包括哪几类

专家推荐,基于统计的推荐,基于内容的推荐

协同过滤推荐,混合推荐

12.请阐述推荐系统的组成模块。

用户建模模块,推荐对象建模模块,推荐算法模块

13.请阐述传统数据采集与大数据采集的区别

传统数据采集大数据采集
数据源来源单一,数据量相对较少来源广泛,数据量巨大
数据类型结构单一数据类型丰富,包括结构化,半结构化和非结构化数据
数据存储关系数据库和并行数据仓库分布式数据库,分布式文件系统

14.请阐述数据采集的三大要点。

全面性,多维性,高效性

15.请阐述数据清洗的主要内容

缺失值(估算,编码和录入误差),异常值,数据类型有误的数据和重复值处理

16.请阐述数据脱敏的原则

保持原有数据特征,保持数据之间的一致性,保持业务规则的关联性,多次脱敏数据之间的数据一致性

17.试述传统的数据存储与管理技术有哪些

传统:文件系统,关系数据库,数据仓库和并行数据库

大数据:分布式文件系统,NewSQL和NoSQL数据库,云数据库

18.试述HDFS的设计要实现哪些目标

容廉价的硬件设备,流数据读写,大数据集,简单的文件模型,强大的跨平台兼容性

局限性:

不适合访问低延迟数据,无法高效存储大量小文件,不支持多用户写入及任意修改文件

19.试述数据分析的概念及其与数据处理的关系

数据分析概念:

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析与数据处理关系:

数据分析和数据处理是一对关系紧密的概念,很多时候,二者是融合在一起,很难割裂开来,当用户在进行数据分析的时候,底层的计算机系统会根据数据分析任务需求,使用程序进行大量数据处理

20.试述MapReduce的工作流程

MapReduce核心思想是分而治之,把一个大的数据集拆分成多个小数据块在多台机器上并行执行,每个Map任务通常运行在数据存储的节点上,计算和数据一起运行,不需要额外的数据传输开销。

21.试述Spark 相对于MapReduce的优点

Spark的计算模式也属于Map Reduce,但不限于Map和Reduce,还提供多种数据集操作类型,编程模型比MapReduce更灵活

spark提供内存计算,中间结果直接放到内存中,带来了更高的迭代运算效率

spark基于DAG的任务调度执行机制,要优于Map Reduce的迭代执行机制

22.试述Spark的部署方式有哪几种

local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程;

standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HA

on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算

on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算

on cloud(集群模式):比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3

23.试述数据可视化的重要作用

观测,跟踪数据,

分析数据,

辅助理解数据,

增强数据吸引力

第一章-大数据概述

  1. 请阐述数据的基本类型

    • 数据类型包括文本,图片,音频,视频等
    • 数据组织形式包括文件和数据库
  2. 请阐述把数据变得可用需要经过那几个步骤

    • 数据清洗,数据管理,数据分析
  3. 请阐述人类IT发展史上3次信息化浪潮的发生时间、标志及其解决的问题

    • 第一次:1980年前后,标志:个人计算机,解决问题:信息处理
    • 第二次:1995年前后,标志:互联网,解决问题:信息传输
    • 第三次:2010年前后,标志:互联网,云计算和大数据,解决问题:信息爆炸
  4. 请阐述信息科技是如何为大数据时代的到来提供技术支撑的。

    • 存储设备容量不断增加
    • CPU处理能力大幅提升
    • 网络宽带不断增加
  5. 请阐述人类社会的数据产生方式大致经历了哪3个阶段。

    • 运营式系统阶段
    • 用户原创内容阶段
    • 感知式系统阶段
  6. 请阐述大数据发展的3个重要阶段。

    • 萌芽期:数据挖掘理论和数据库技术逐步成熟
    • 成熟期:web2.0
    • 大规模应用期:大数据应用渗透各行各业
  7. 请阐述大数据的“4V”特性。

    • 4v:数据量大,数据类型繁多,处理速度快,价值密度低
  8. 请阐述大数据对科学研究有什么影响。

    • 实验科学,理论科学,计算科学,数据密集型科学
  9. 请举例说明大数据的应用。

    • 制造,金融,汽车,互联网,餐饮,电信,能源,物流,城市管理,生物医学,体育和娱乐,安全,个人生活
  10. 请阐述高校大数据专业的知识体系。

    • 数据采集与预处理
    • 数据存储与管理
    • 数据处理与分析
    • 数据可视化

第二章-大数据与其他新兴科技的关系

  1. 请阐述云计算的概念

    • 云计算实现通过网络提供可伸缩的,廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源
  2. 请阐述云计算有哪几种服务模式和哪几种类型。

    • 服务模式:基础设施即服务,平台即服务,软件即服务
    • 类型:公有云,私有云,混合云
  3. 请阐述什么是数据中心和数据中心在云计算中的作用。

    • 数据中心是云计算的重要载体,为云计算提供计算,存储,宽带等各种资源,为各种平台和应用提供运行支撑环境
    • 数据中心里的CPU,内存,磁盘,宽带等it资源汇集成一个庞大的it资源池
  4. 请举例说明云计算有哪些典型的应用。

    • 应用:电子政务,教育,企业,医疗
  5. 请阐述物联网的概念和物联网各个层次的功能。

    • 物联网是物物相连的互联网,是互联网的延申,它利用局部网或互联网等技术把传感器,控制器,机器,人员或物等通过新的方式连在一起,形成人与物,物与物相连,实现信息化和远程管理控制
    • 四个层次:感知层,网络层,处理层,应用层
  6. 请阐述物联网有哪些关键技术。

    • 识别感知技术
    • 网络与通信技术
    • 数据挖掘与融合技术
  7. 请阐述大数据与云计算、物联网的相互关系。

    • 大数据技术为物联网数据分析提供支撑,物联网是大数据的重要来源
    • 物联网为云计算技术提供了广阔的应用空间,云计算为物联网提供海量数据存储能力
    • 云计算为大数据提供了技术基础,大数据为云计算提供用武之地
    • 大数据侧重于对海量数据存储,处理与分析,从海量数据中发现价值,服务于生产和生活;
    • 云计算旨在整合和优化各种it资源并通过网络以服务的方式,廉价低提供给用户
    • 物联网的发展目标是实现“物物相连”,应用创新是物联网发展的核心
  8. 请阐述人工智能的概念。

    • 人工智能是研究,开发用于模拟,延申和扩展人的智能的理论,方法,技术及应用系统的一门新的技术科学
  9. 请阐述人工智能有哪些关键技术。

    • 机器学习,知识图谱,自然语言处理
    • 人机交互,计算机视觉(人脸识别,图像检索,游戏和控制,监测,智能汽车),生物特征识别
    • AR/VR(虚拟现实/增强现实)
  10. 请阐述人工智能与大数据的关系。

    • 联系:
    • 人工智能需要数据来建立其智能,特别是机器学习
    • 大数据技术为人工智能提供了强大的存储能力和计算能力
    • 区别:
    • 人工智能是一种计算形式,它允许计算机执行认知功能,大数据是一种传统计算,它不会根据结果采取行动,只是寻找结果
    • 二者要达成的目标和实现目标的手段不同,大数据的主要目的是通过数据的对比分析来掌握和推演更优的方案
    • 人工智能的开发是为了辅助或代替我们更快,更好地完成某些任务或进行某些决定
  11. 请阐述区块链的概念以及区块链和比特币的关系。

    • 区块链是利用块链式数据结构来验证与存储数据,利用分布式节点共识算法来生成和更新数据,利用密码学的方式保证数据传输和访问安全的一种全新的分布式基础架构与计算范式
    • 关系:采用区块链(数据结构+哈希函数),保证账本不能篡改,采用数字签名技术,保证只有自己才能够使用自己的账号
    • 采用p2p网络和pow共识机制,保证去中心化的运作方式
  12. 请阐述区块链是如何解决防篡改问题的。

    • 引入哈希函数,区块链
  13. 请阐述区块链和大数据的关系。

    • 区别:
    • 数据量,结构化和非结构化,独立和整合
    • 直接和间接,CAP理论,基础网络
    • 价值来源,计算模式
    • 联系:
    • 区块链式使大数据极大降低信用成本
    • 区块链是构建大数据时代的信任基石
    • 区块链是促进大数据价值流通的管道

第三章-大数据基础知识

  1. 请阐述传统的数据安全的威胁主要包括哪些

    • 计算机病毒
    • 黑客攻击
    • 数据信息存储介质的损坏
  2. 请阐述大数据安全与传统数据安全的不同

    • 大数据成为网络攻击的显著目标
    • 大数据加大隐私泄露风险
    • 大数据技术被应用到攻击手段中
    • 大数据成为高级可持续攻击的载体
  3. 请列举几个大数据安全问题的实列

    • 隐私和个人信息安全问题
    • 国家安全问题
    • 棱镜门事件,维基解密,Facebook数据滥用事件,手机app过度采集个人信息,12306数据泄露
    • 免费WiFi窃取用户信息,收集个人信息的探针盒子
  4. 请阐述机械思维的核心思想。

    • 世界变化的规律是确定的
    • 因为有确定性做保障
    • 这些规律应该是放之四海而皆准的
  5. 请阐述大数据时代为什么需要新的思维方式。

    • 不确定性在我们生活的世界里无处不在,世界的本质是数据
  6. 请阐述大数据时代人类思维方式的转变主要体现在哪些方面。

    • 全样而非抽样,效率而非精确,相关而非因果
    • 以数据为中心,我为人人,人人为我
  7. 请根据自己的生活实践举出一个大数据思维的典型案例。

  8. 请阐述大数据伦理的概念。

    • 伦理是规则和道理,即人作为总体,在社会中的一般行为规则和行事原则,强调人与人之间,人与社会之间的关系
    • 科技伦理是指科学技术创新与应用活动中的道德标准和行为标准,是一种观念与概念上的道德哲学思考
    • 大数据伦理问题,就属于科技伦理的范畴
  9. 请列举大数据伦理的相关实例。

    • 大麦网"撞库"事件,大数据杀熟,隐形偏差问题,信息茧房,
  10. 请阐述大数据伦理问题具体表现在哪些方面。

    • 隐私泄露问题,数据安全问题,数字鸿沟问题,数据独裁,数据垄断,数据的真实可靠,人的主体地位问题
  11. 请阐述什么是“数字鸿沟”问题。

    • 数据鸿沟总是指向信息时代的不公平,没有因为大数据技术的诞生而趋向弥合,涉及公平公正的问题
  12. 请阐述什么是“数据独裁”问题。

    • 数据独裁是指在大数据时代,由于数据量的爆炸式增长,导致做出判断和选择的难度徒增,迫使人们必须完全依赖数据的预测和结论才能做出最终的决策。
  13. 请阐述什么是“数据垄断”问题。

    • 数据可能造成进入壁垒或扩张壁垒
    • 是拥有大数据形成市场支配地位并滥用
    • 数据产品而形成市场支配地位并滥用
    • 涉及数据方面的垄断协议
    • 数据资产的并购
  14. 请阐述什么是“人的主体地位”问题。

    • 数据的采集,传输,存储和处理技术,不断推陈出新,在万物皆数据的环境下,人的主体地位受到了前所未有的冲击,因为人本身也可数据化
  15. 请阐述什么是政府数据孤岛问题。

    • 数据共通,共享与共用还存在较大的障碍,政府各部门建设数据库所采用的技术,平台及网络标准不统一
  16. 请阐述什么是企业数据孤岛问题。

    • 所有数据封存在各个系统中,让完整的业务链上孤岛林立,信息的共享,反馈难,数据孤岛问题是企业信息化建设中的最大难题
  17. 请阐述政府数据孤岛产生的原因。

    • 认为占有就是财富,热衷于搜集,但不愿共享
    • 数据标准,系统接口等技术原因
    • 缺乏顶层设计,导致各条线,各部门固有的本位主义作崇,壁垒林立,数据无法流动
  18. 请阐述企业数据孤岛产生的原因。

    • 以功能为标准的部门划分导致数据孤岛
    • 不同类型,不同版本的信息化管理系统导致数据孤岛
  19. 请阐述消除数据孤岛对政府和企业的重要意义。P97

  20. 请阐述政府开放数据的理论基础。

    • 数据资产理论,数据权理论,开放政府理论
  21. 请阐述政府信息公开与政府数据开放的联系与区别。P106

  22. 请阐述政府数据开放的重要意义。

    • 政府开放数据有利于促进开放透明政府形成
    • 有利于创新创业和经济增长
    • 有利于社会治理创新
  23. 请阐述交易平台包括哪些类型。

    • 综合数据服务平台和第三方数据交易平台
  24. 请阐述交易平台的数据来源有哪些。

    • 政府公开,企业内部,数据供应方,网页爬虫
  25. 请阐述交易平台的产品类型有哪些。

    • API,数据包,云服务,解决方案,数据定制服务,数据产品
  26. 请举例说明交易平台的运营模式。

    • 兼具中介和数据处理加工功能的交易平台
    • 只具备中介功能的交易平台
  27. . 请列举几个具有代表性的大数据交易平台。

    • 贵阳大数据交易所,上海数据交易中心,华东江苏大数据交易中心,浙江大数据交易中心

第四章-大数据应用

  1. 请阐述什么是长尾理论。

    • 推荐系统通过发掘用户的历史记录,找到用户的个性化需求,发现用户潜在的消费倾向,从而将长尾商品准确地推荐给可能需要它的用户,帮助用户发现那些他们感兴趣却很难发现的商品,最终实现用户与商家双赢
  2. 推荐系统的本质是建立用户与商品的联系,根据推荐算法的不同,请用述推荐方法包括哪几类。

    • 专家推荐,基于统计的推荐,基于内容的推荐
    • 协同过滤推荐,混合推荐
  3. 请阐述推荐系统的组成模块。

    • 用户建模模块,推荐对象建模模块,推荐算法模块
  4. 请阐述大数据在生物医学领域有哪些典型应用。

    • 流行病预测,智慧医疗,生物信息学
  5. 请阐述智慧物流的概念和作用。

    • 智能物流又称智慧物流,是利用智能化技术,使物流系统能模仿人的智慧,具有思维,感知,学习,推理判断和自行解决物流中某些问题的能力,从而实现物流资源优化调度和有效配置,物流系统效率提升现代化物流管理模式
    • 作用:提高物流的信息化和智能化水平
    • 降低物流成本和提高物流效率
    • 提高物流活动的一体化
  6. 请阐述大数据在城市管理领域有哪些典型应用。

    • 智能交通,环保监测,城市规划,安防,疫情防控
  7. 请阐述大数据在金融领域有哪些典型应用。

    • 高频交易,市场情绪分析,信贷风险分析,大数据征信
  8. 请阐述大数据在零售领域有哪些典型应用。

    • 发现关联购买行为,客户群体细分和供应链管理
  9. 请举例说明大数据在体育和娱乐领域的典型应用。

    • 训练球队,投拍影视作品,预测比赛结果
  10. 请阐述大数据在安全领域有哪些典型应用。

    • 大数据与国家安全
    • 应用大数据技术防御网络攻击
    • 警察应用大数据工具预防犯罪

第五章-数据采集与预处理

  1. 请阐述传统数据采集与大数据采集的区别

    传统数据采集大数据采集
    数据源来源单一,数据量相对较少来源广泛,数据量巨大
    数据类型结构单一数据类型丰富,包括结构化,半结构化和非结构化数据
    数据存储关系数据库和并行数据仓库分布式数据库,分布式文件系统
  2. 请阐述数据采集的三大要点。

    • 全面性,多维性,高效性
  3. 请阐述数据采集的数据源有哪些。

    • 传感器数据,互联网数据,日志文件,企业业务系统数据
  4. 请阐述典型的数据采集方法有哪些。

    • 系统日志采集,分布式消息订阅分发,ETL,网络数据采集
  5. 请阐述什么是网络爬虫。

    • 网络爬虫是自动抓取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分
  6. 请阐述网络爬虫的组成。

    • 控制节点,爬虫节点,资源库
  7. 请阐述网络爬虫的类型。

    • 通用网络爬虫,聚集网络爬虫,增量式网络爬虫,深层网络爬虫
  8. 请阐述Scrapy爬虫的体系架构。

    • scrapy引擎,爬虫,下载器,调度器,项目管道,下载器中间件,爬虫中间件,调度器中间件
  9. 请阐述数据清洗的主要内容。

    • 缺失值(估算,编码和录入误差),异常值,数据类型有误的数据和重复值处理
  10. 请阐述数据清洗的注意事项。

    • 数据清洗时可优先进行缺失值,异常值和数据类型转换的操作,最后进行重复值处理
    • 在对缺失值,异常值进行处理时,要根据业务的需求进行处理,这些处理并不是一成不变的
    • 在数据清洗之前,最重要的是对数据表进行查看,要了解表的结构和发现需要处理的值才能将数据清洗彻底
    • 数据量的大小也关系着数据的处理方式
    • 在导入数据表后,一般需要对所有列依次进行清洗,来保证数据处理的彻底性
  11. 请阐述数据转换包括哪些策略。

    • 平滑处理,聚集处理,数据泛化处理,规范化处理,属性构造处理
  12. 请阐述数据规范化包含哪些方法。

    • Min-Max规范化,Z-Score规范化和小数定标规范化
  13. 请阐述数据脱敏的原则。

    • 保持原有数据特征,保持数据之间的一致性,保持业务规则的关联性,多次脱敏数据之间的数据一致性
  14. 请阐述数据脱敏的方法。

    • 数据替换,无效化,随机化,偏移和取整,掩码屏蔽,灵活编码

第六章-数据存储与管理

  1. 试述传统的数据存储与管理技术有哪些

    • 传统:文件系统,关系数据库,数据仓库和并行数据库
    • 大数据:分布式文件系统,NewSQL和NoSQL数据库,云数据库
  2. 试述关系数据库有哪些特性。

    • 存储方式,存储结构,存储规范,扩展方式,查询方式,事务性,连接方式
  3. 试述数据仓库有哪些特性。

    • 面向主题,集成,相对稳定,放映历史变化
    • 数据仓库系统包含数据源,数据存储和管理,OLAP服务器,前端工具和应用
  4. 试述Hadoop具有哪些特性。

    • 高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux操作系统上,支持多种编程语言
  5. 试述Hadop生态系统及其每不部分的具体功能。

    • HDFS,HBase , MapReduce, Hive, Pig, Mahout, Zookeeper,Flume,Sqoop,Ambari
  6. 试述HDFS的设计要实现哪些目标。

    • 兼容廉价的硬件设备,流数据读写,大数据集,简单的文件模型,强大的跨平台兼容性
  7. 试述HDFS中的名称节点和数据节点的具体功能。

    • 名称节点:作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
    • 数据节点:负责处理文件系统客户端的读或写请求
  8. 试述键值数据库、列族数据库、文档数据库和图数据库的适用场合和优缺点。

    • 键值数据库
    项目描述
    相关产品Redis,Riak,SimpleDB,Chordless,Scalaris,Memcached
    数据模型键值对
    典型应用内容缓存,如会话,配置文件,参数,购物车等
    优点扩展性好,灵活性好,进行大量写操作时性能高
    缺点无法存储结构化信息,条件查询效率低
    使用者百度云数据库(Redis),GitHub(Riak)
    • 列族数据库
    项目描述
    相关产品Bigtable,HBase,Cassandra,HadoopDB
    数据模型列族
    典型应用分布式数据存储与管理
    优点查找速度快,可扩展性强,容易进行分布式扩展,复杂性低
    缺点功能较少,大多不支持强事务一致性
    使用者EBay,INstagram
    • 文档数据库
    项目描述
    相关产品CouchDB,MongoDB,Terrastore等
    数据模型版本化的文档
    典型应用存储,索引并管理面向文档的数据或者类似的半结构化数据
    优点性能好,灵活性高,复杂性低,数据结构灵活
    缺点缺乏统一的查询语法
    使用者百度云数据库,SAP等
    • 图数据库
    项目描述
    相关产品Neo4j,OrientDB等
    数据模型图结构
    典型应用可用于大量复杂,互连接,低结构化的图结构场合,如社交网络,推荐系统等
    优点灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱
    缺点复杂性高,只能支持一定的数据规模
    使用者Adobe(Neo4j),cisco
  9. 试述云数据库的概念。

    • 云数据库是部署在云计算环境中的虚拟化数据库
  10. 云数据库有哪些特性?

    • 动态可扩展,高可用性,较低的使用代价,易用性,高性能,免维护,安全
  11. 试述云数据库与其他数据库的关系。

    • 关系数据库采用关系数据模型,Nosql数据库采用非关系数据模型,二者属于不同的数据库技术,云数据库并非一种全新的数据库技术,而是以服务的方式提供数据库功能的技术
  12. 举例说明云数据库厂商及其代表性产品。

    • 传统的数据库厂商:Teradata,Oracle等
    • 涉足数据库市场的云数据库厂商:Amazon,Google,阿里,百度等
    • 新兴厂商:Vertica,LongJump等
  13. 试述在Hadoop体系架构中 HBase与其他组成部分的相互关系。

    • HBase利用Hadoop MapReduce来处理HBase中海量数据,实现高性能计算,
    • 利用Zookeeper作为协同服务,实现稳定服务和失败恢复
    • 使用HDFS作为高可靠的底层数据存储系统,利用廉价集群提供海量数据存储能力
  14. 请以实例说明HBase数据模型。

    • HBase实际是一个稀疏,多维,持久化存储的映射表,采用行键,列族,列限定符和时间戳进行索引,每个值都是未经解释的字节数组byte[]
  15. 分别解释 HBase中行键、列键和时间戳的概念。

    • 行键:每个HBase表都由诺干行组成,每个行有行键来标识
    • 列键:一个Hase表被分组成许多列族的集合,它是基本的访问控制单元
    • 时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引
  16. 试述HBase的系统架构及其每个组件的功能。

    • 客户端,zookeeper服务器,master主服务器,region服务器
  17. 试述Spanner服务器的组织方式。

    • spanner是一个可扩展的,全球分布式的数据库

第七章-数据处理与分析

  1. 试述数据分析的概念及其与数据处理的关系。P201-202

  2. 试述机器学习的概念及其与数据挖掘的关系。P203

  3. 试述常见的机器学习和数据挖掘算法有哪些。

    • 分类,聚类,回归分析和关联规则(Apriori和FP-Growth)
  4. 试述协同过滤算法有哪些种类。

    • 基于用户协同过滤:最古老的算法
    • 基于物品的协同过滤:应用最多的算法
    • 基于模型的协同过滤:前两者混合
  5. 试述典型的大数据处理与分析技术有哪几种类型,并给出代表性产品。

    大数据处理与分析技术类型解决问题代表性产品
    批处理计算针对大规模数据的批量处理MapReduce Spark
    流计算针对流数据的实时计算Flink,Storm Spark Streaming ,
    图计算针对大规模图结构数据的处理Pregel Giraph
    查询分析计算大规模数据的存储管理和查询分析Dremel,Hive
  6. 试述流计算的概念及其处理流程。

    • 流计算实时获取来自不同平台数据源的海量数据,实时分析处理,获得有价值的信息,数据的价值随着时间流逝而降低
    • 传统数据流程:存储数据是旧的,需要用户主动发出查询
    • 流计算数据处理流程:数据实时采集(Agent,Collector,Store),数据实时计算,实时查询服务
  7. 试述通用的图计算软件有哪几种。

    • 基于遍历算法的,实时图数据库:Neo4j,OrientDB
    • 以图顶点为中心的,基于消息传递批处理的并行引擎:Hama,Giraph
    • 图计算软件主要基于BSP模型实现的并行图处理系统:BSP又名大同步模型,三个组件:局部计算,通信,栅栏同步
  8. 试述MapReduce的工作流程。P213

  9. 试述MapReduce有哪些不足之处。

    • 表达能力有限,磁盘IO开销大,延迟高
  10. 请将数据仓库Hive和传统数据库进行对比分析。

    特性Hive传统数据库
    查询语言HQLSQL
    数据存储位置HDFSRaw Device
    数据格式用户定义系统决定
    数据更新不支持支持
    索引
    执行MapRedcueExecutor
    执行延迟
    可扩展性
    数据规模
  11. 试述数据仓库Hive的体系架构。

    • 用户接口模块,驱动模块,元数据存储模块
  12. 试述Spark 相对于MapReduce的优点。

    • Spark的计算模式也属于Map Reduce,但不限于Map和Reduce,还提供多种数据集操作类型,编程模型比MapReduce更灵活
    • spark提供内存计算,中间结果直接放到内存中,带来了更高的迭代运算效率
    • spark基于DAG的任务调度执行机制,要优于Map Reduce的迭代执行机制
  13. 试述Spark与Hadoop的关系。

    • 计算资源按需伸缩
    • 不同负载应用混搭,集群利用效率高
    • 共享底层存储,避免数据跨集群迁移
  14. 试述Spark的体系架构包含哪些组件。

    • sparkCore,Spark SQL,Spark Streaming,Structured Streaming,MLlib和Graph X等组件
  15. 试述Spark的部署方式有哪几种。

    • local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程;
    • standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HA
    • on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算
    • on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算
    • on cloud(集群模式):比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3
  16. 试述为什么推出Spark SQL

    • Spark SQL可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作;
    • 其次,可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,
    • 可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力,有效满足各种复杂的应用需求。
  17. 试述 Spark Streaming的基本原理

    • Spark Streaming把实时输入数据流以时间片Δt (如1秒)为单位切分成块。Spark Streaming会把每块数据作为一个RDD,并使用RDD操作处理每一小块数据。每个块都会生成一个Spark Job处理,最终结果也返回多块。
  18. 试述 Structured Streaming有哪几种处理模型。

    • 微批处理,持续处理,默认使用微批处理模型
  19. 请将 Structured Streaming 和 Spark SQL、Spark Strcaming 进行对比分析。

    Spark StrcamingSpark SQLStructured Streaming
    Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理一致的 API。由于和 Spark SQL 共用大部分 API,对 Spaprk SQL 熟悉的用户很容易上手,代码也十分简洁。同时批处理和流处理程序还可以共用代码,不需要开发两套不同的代码,显著提高了开发效率。简洁的模型。Structured Streaming 的模型很简洁,易于理解。用户可以直接把一个流想象成是无限增长的表格。
    把流式计算当作一系列连续的小规模批处理来对待!其实就是用批处理(小批次)的思想来做流处理卓越的性能。Structured Streaming 在与 Spark SQL 共用 API 的同时,也直接使用了 Spark SQL 的 Catalyst 优化器和 Tungsten,数据处理性能十分出色。此外,Structured Streaming 还可以直接从未来 Spark SQL 的各种性能优化中受益。多语言支持。Structured Streaming 直接支持目前 Spark SQL 支持的语言,包括 Scala,Java,Python,R 和 SQL。用户可以选择自己喜欢的语言进行开发。
  20. 试述Spark MLlib的功能以及它提供了哪些工具。

    • 算法工具:常用学习算法。如分类,回归,聚类和协同过滤
    • 特征化工具:特征抽取,转化,降维和选择工具
    • 流水线:用于构建,评估和调整机器学习工作流的工具
    • 持久性:保持和加载算法,模型和管道
    • 实用工具:线性代数,统计,数据处理等工具
  21. 试述 TensorFlowOnSpark的 Spark应用程序包括哪几个基本过程。

    • 预留:组建Tensor Flow集群,并在每个Executor进程上预留监听端口,启动数据/控制消息的监听程序
    • 启动:在每个Executor进程上启动Tensor Flow程序
    • 训练/推理:在Tensor Flow集群上完成模型的训练/推理
    • 关闭:关闭Executor进程上的Tensor Flow程序。释放相应的系统资源
  22. 请画出Storm的集群架构并加以简要说明。P234

  23. 试述Storm的工作流程。

    • 客户端提交Topology到Storm集群中
    • Nimbus将分配给Supervisor的任务写入Zookeeper
    • Supervisor从Zookeeper中获取所分配的任务,并启动worker进程
    • worker进程执行具体任务
  24. 请对 Spark Streaming和Storm进行简要对比。

    • Spark Streaming和Storm最大的区别是Spark Streaming无法实现毫秒级的流计算,Storm可以实现
    • Spark Streaming构建在Spark上,可以实时计算,Stom,RDD数据集更容易做高效的容错处理
    • Spark Streaming采用小批量处理方式使得它可以同时兼容批量和实时数据处理的逻辑和算法
  25. 试述为什么流计算场景比较适合采用Flink。

    • Flink支持增量迭代计算,具有对迭代计算进行自动优化的功能
    • Flink是一行一行地处理数据,支持毫秒级反应
  26. 试述Flink的体系架构包含哪些组件。

    • JobManager和TaskManager
  27. 试述Beam的设计目标。

    • 为开发者提供一个易于使用,又很强大的数据并行处理模型,能够支持流处理和批处理,兼容多个运行平台
  28. 试述查询分析系统Dremel具有哪些特点。

    • Dremel是一个大规模,稳定的系统
    • Dremel是MapReduce交互式查询能力不足的补充
    • 数据模型是嵌套的
    • 数据是用列式存储的
    • 结合了web搜索和并行DBMS的技术

第八章-数据可视化

  1. 试述数据可视化概念

    • 数据可视化是指将大型数据集中的数据以图形,图像形式表示,并利用数据分析和开发工具,发现其中未知信息的处理过程
  2. 试述数据可视化的重要作用

    • 观测,跟踪数据,分析数据,辅助理解数据,增强数据吸引力
  3. 常见的统计图表有哪些类型?给出每种类型的具体应用场景

    图表维度应用场景
    柱状图二维指定一个分析轴进行数据大小比较,只需要比较其中一维
    折线图二维按时间序列分析数据的变化趋势,适用于较大的数据集
    饼图二维指定一个分析轴进行所占比列的比较,只适用于反映部分于整体的关系
    散点图二维或三维有两个维度需要比较
    气泡图三维或四维其中只有两维能够精神辨识
    雷达图四维以上数据点不超过6个

    漏斗图:适用于业务流程比较规范,周期长,环节多的流程分析

    树图:利用包含关系表达层次化数据的可视化方法

    热力图:特殊高亮的形式显示访客热衷的页面区域和访客所在地理区域的图示

    关系图:基于3D空间中的点线结合

    词云:通过形成关键词云层或关键词渲染,对网络文本中出现频率较高的,给予视觉突出

    日历图:以日历为基本维度的,对单元格加以修饰的图表

  4. 可视化工具主要包含哪些类型?各自的代表性产品有哪些?

    • 入门级工具:Excel
    • 信息图表工具:Google chart API,Echarts,D3,Tableau,大数据魔镜
    • 地图工具:Google Fusion Tables,Modest Maps,Leaflet
    • 时间线工具:TImetoast,Xtimeline,
    • 高级分析工具:R,python,weka,Gephi
  5. 请举出几个数据可视化的有趣案列

    • 全球黑客活动,互联网地图,编程语言之间的影响力关系图,世界国家健康与财富之间的关系,3D可视化互联网地图App

\