什么是大数据
一句话解释:大数据就是大量数据,数据多到传统方案无法处理的程度。数据的体量并不是最重要的,重要的是隐藏在这些数据中的信息。大数据技术应用广泛:金融行业的用户画像,电商平台的杀熟操作,营销平台的精准推送广告,物流方向的精细化运营,以及旅游行业的智慧管理等......
大数据的神奇单位
来自严谨的理科生的发问:大数据大数据,天天大数据,多大才算大数据啊?为了减少撕B,传说中的科学家就派上用场了,单位如下:
- bit , byte , kb , mb , gb , tb , pb , eb , zb , yb , bb , nb , db
- 进制就是传说中的1024
现在我们了解一下这些单位的威力,仅供参考,传说全世界所生产的印刷材料的数据大概是200pb,传说全世界人类总共说过的话大概是5eb,一百万个汉字大概是2mb......
大数据的特点
首先就是大量,这是必须的,不大的话都不好意思叫大数据。其次是高速,这么多数据肯定需要快速的消化掉的。然后是多样,不同的应用场景所产生的数据是不同的。最后是低价值密度,即使数据量很大,但是我们关注的始终是特定的一部分,而非整体。
hadoop是个啥
官方说的哈,hadoop是一个由apache基金会所开发的分布式系统基础架构。注意,是分布式的。用户即我们可以在不了解分布式底层细节的情况下,开发分布式程序。然后充分利用集群的威力进行高速运算和存储。hadoop其实不仅仅只是hadoop,目前的hadoop其实是hadoop生态,即大数据一站式解决方案,哈哈,是不是想起了微服务一站式解决方案spring cloud。
hadoop的优势
一个技术能存活与天地间必然是有过人之处。聊聊为啥hadoop这么好:
-
高可靠性:hadoop底层使用多个数据副本,即使hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
-
高扩展性:在集群间分配任务数据,可以方便的扩展数以千计的接口。集群存储不够了分分钟新增节点。
-
高效性:在mapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
-
高容错性:能够将失败的任务重新分配。
-
666
结语
心血来潮想学习一下Hadoop,为了督促自己的总结习惯,每周发布一次总结到掘金,希望自己坚持不懈,功成之路,满是荆棘。
目前hadoop已经从1.x迭代到2.x,重新规划mapReduce,扩展出yarn。我们下回再说。