这是我参与「第四届青训营」笔记创作活动的第2天。 1、大数据的发展背景及面临的问题。 答:发展背景:1)政府政策层面:《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。 面临的问题:1)数据真实性存在质疑。2)数据样本具有代表性,数据信息不全面。3)数据信息存在相关性误差。4)大数据故事化,不能最终解决问题。5)数据泄露泛滥,采取安全措施尤为重要。6)大数据存在侵犯隐私隐患,应立法保护隐私。 2、Hadoop发展历史;MapReduce的概念。 答:Hadoop的发展历史:Hadoop起源于Apache Nutch项目,始于2002年,是Apache的子项目之一。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation,OSDI)会议上公开发表了题为MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(Nutch Distributed File System)结合,用以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为一套完整而独立的软件,并被命名为Hadoop。到了2008年年初,hadoop已成为的顶级项目,包含众多子项目,被应用到包括Yahoo在内的很多互联网公司。 Mapreduce的概念:Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个集群上。