大数据基础-hadoop-理论(1)

365 阅读3分钟

什么是大数据

    一句话解释:大数据就是大量数据,数据多到传统方案无法处理的程度。数据的体量并不是最重要的,重要的是隐藏在这些数据中的信息。大数据技术应用广泛:金融行业的用户画像,电商平台的杀熟操作,营销平台的精准推送广告,物流方向的精细化运营,以及旅游行业的智慧管理等......

大数据的神奇单位

    来自严谨的理科生的发问:大数据大数据,天天大数据,多大才算大数据啊?为了减少撕B,传说中的科学家就派上用场了,单位如下:

  • bit , byte , kb , mb , gb , tb , pb , eb , zb , yb , bb , nb , db 
  • 进制就是传说中的1024

    现在我们了解一下这些单位的威力,仅供参考,传说全世界所生产的印刷材料的数据大概是200pb,传说全世界人类总共说过的话大概是5eb,一百万个汉字大概是2mb......

大数据的特点

    首先就是大量,这是必须的,不大的话都不好意思叫大数据。其次是高速,这么多数据肯定需要快速的消化掉的。然后是多样,不同的应用场景所产生的数据是不同的。最后是低价值密度,即使数据量很大,但是我们关注的始终是特定的一部分,而非整体。

hadoop是个啥

    官方说的哈,hadoop是一个由apache基金会所开发的分布式系统基础架构。注意,是分布式的。用户即我们可以在不了解分布式底层细节的情况下,开发分布式程序。然后充分利用集群的威力进行高速运算和存储。hadoop其实不仅仅只是hadoop,目前的hadoop其实是hadoop生态,即大数据一站式解决方案,哈哈,是不是想起了微服务一站式解决方案spring cloud。

hadoop的优势

    一个技术能存活与天地间必然是有过人之处。聊聊为啥hadoop这么好:

  • 高可靠性:hadoop底层使用多个数据副本,即使hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

  • 高扩展性:在集群间分配任务数据,可以方便的扩展数以千计的接口。集群存储不够了分分钟新增节点。

  • 高效性:在mapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

  • 高容错性:能够将失败的任务重新分配。

  • 666

结语

    心血来潮想学习一下Hadoop,为了督促自己的总结习惯,每周发布一次总结到掘金,希望自己坚持不懈,功成之路,满是荆棘。

    目前hadoop已经从1.x迭代到2.x,重新规划mapReduce,扩展出yarn。我们下回再说。