大数据基础-hadoop-理论（1）什么是大数据一句话解释：大数据就是大量数据，数据多到传统方案无法处理的程度。数据

什么是大数据

一句话解释：大数据就是大量数据，数据多到传统方案无法处理的程度。数据的体量并不是最重要的，重要的是隐藏在这些数据中的信息。大数据技术应用广泛：金融行业的用户画像，电商平台的杀熟操作，营销平台的精准推送广告，物流方向的精细化运营，以及旅游行业的智慧管理等......

大数据的神奇单位

来自严谨的理科生的发问：大数据大数据，天天大数据，多大才算大数据啊？为了减少撕B，传说中的科学家就派上用场了，单位如下：

bit , byte , kb , mb , gb , tb , pb , eb , zb , yb , bb , nb , db
进制就是传说中的1024

现在我们了解一下这些单位的威力，仅供参考，传说全世界所生产的印刷材料的数据大概是200pb，传说全世界人类总共说过的话大概是5eb，一百万个汉字大概是2mb......

大数据的特点

首先就是大量，这是必须的，不大的话都不好意思叫大数据。其次是高速，这么多数据肯定需要快速的消化掉的。然后是多样，不同的应用场景所产生的数据是不同的。最后是低价值密度，即使数据量很大，但是我们关注的始终是特定的一部分，而非整体。

hadoop是个啥

官方说的哈，hadoop是一个由apache基金会所开发的分布式系统基础架构。注意，是分布式的。用户即我们可以在不了解分布式底层细节的情况下，开发分布式程序。然后充分利用集群的威力进行高速运算和存储。hadoop其实不仅仅只是hadoop，目前的hadoop其实是hadoop生态，即大数据一站式解决方案，哈哈，是不是想起了微服务一站式解决方案spring cloud。

hadoop的优势

一个技术能存活与天地间必然是有过人之处。聊聊为啥hadoop这么好：

高可靠性：hadoop底层使用多个数据副本，即使hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
高扩展性：在集群间分配任务数据，可以方便的扩展数以千计的接口。集群存储不够了分分钟新增节点。
高效性：在mapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
高容错性：能够将失败的任务重新分配。
666

结语

心血来潮想学习一下Hadoop，为了督促自己的总结习惯，每周发布一次总结到掘金，希望自己坚持不懈，功成之路，满是荆棘。

目前hadoop已经从1.x迭代到2.x，重新规划mapReduce，扩展出yarn。我们下回再说。