亿级用户行为之大数据实时分析【大讲台】Download：百度网盘提取码：600x 如今大数据应用越来越广，对于大数据技

提取码：600x

如今大数据应用越来越广，对于大数据技术人才的需求越来越大，很多人想转行学习大数据，并想通过自学进入大数据行业，那么，大数据技术怎么自学?大数据开发如何自学?

对于想学习大数据人员可分为以下三种；

第一类：零基础学员，对大数据行业和技术一无所知;

第二类：有一定的编程基础，对大数据行业略知一二，无发真正应该用;

第三类：有工作经验的工程师，对大数据行业了解，想转行大数据开发。

在搞清楚了自身的状况之外，我们要针对不同阶段、不同基础的同学制定不同的学习方案。对于零基础想要自学大数据，不是说不可能，但是很多以失败告终，客观原因：学习环境不好;主观原因：基础不好，看不懂，学不会，枯燥无味直接放弃。

对于零基础想要学习的大数据的同学，最好的方案是：先关注一些大数据领域的动态，让自己融入大数据这样一个大的环境中。然后找一些编程语言的资料(大数据的基础必备技能)和大数据入门的视频和书籍，基本的技术知识还是要了解的。这是一个分布式的一个注册中心啊，或者你就把它看作一个缓存都行啊，反正就是你可以存一些数据，为什么要学它呢？因为很多的大数据组件啊，分布式的组件，它要进行协调的时候，使用的就是我们的zookeeper进行协调的。好吧，好，学完这个之后才真正进入到这个大数据的组件当中。比方说第一大块，那就是hadoop啊，hadoop当中啊最重要的就是三块内容，HDFS啊就是大数据的存储啊，MR就是map reduce。就是看一下我们的在大数据当中啊到底是如何处理数据的啊，以及一二啊学一下。然后hadoop学完之后我们要学一下，have啊通过使用have写一些have circle啊，就是h circle之后，哎，我们就能像查本身自己的数据库一样去查大数据里面的一些资源的啊，这是非常方便的。

他害怕他就其实就是把circle语句转化成mapreduce的这样一个工作流了。行吧，然后呢have学完了之后，我们再学一下flu啊，它就是一个流式处理，好吧，然后呢。学完它之后呢，我们再学习一下ELK。 ELK它是一个日志收集框架，它可以把我们整个所有这个机器上边运行的机器上边打出来的日志都可以输入到我们的electric search 当中啊。一般来说呢呃在大数据分析的时候也会用到分析一下日志啊，今天报了几个错呀，然后明天啊这个错误又没了啊，进行一些分析。

然后接下来呢就学一个叫做scoop 的一个小软件啊，这个软件很简单，它就是可以把我们传统的关系型数据库啊，mysql 呀、oracle 里面的数据存到我们的大数据这个组件里面。