BigData - PlayInJava的收藏集 - 掘金

BigData

PlayInJava 创作等级LV.5

更多收藏集

17篇文章 · 0订阅

Spark 从零到开发（二）Spark安装和集群搭建

1. 配置环境变量 2. 配置/conf/spark-env.sh 3. 配置/conf/slaves.conf 将spark和scala 和配置文件拷贝到每个slave节点。首先得启动hadoop或者只启动hdfs。start-dfs.sh命令。 jps查看并确保主从机的h…

PlayInJava
7年前
2.6k
4
评论

Hive常用操作

1. 绑定数据表示行格式用逗号来分割字段。我创建在/home/fantj目录下。

PlayInJava
7年前
503
1
评论

Spark 从零到开发（四）单词计数的三种环境实现

我用的springboot搭建的环境，所以pom中需要将springboot内置的tomcat移除，我们不需要容器来执行java脚本。最后打成jar包将main方法的路径告诉hadoop即可，不需要容器。然后就是导入hadoop spark的相关依赖。没maven基础的先学习m…

PlayInJava
7年前
945
1
评论

Hadoop所有命令详解

将路径指定文件的内容输出到stdout。成功返回0，失败返回-1。改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必…

PlayInJava
7年前
377
1
评论

Spark 从零到开发（六）HiveContext

1. java本地执行 2. 集群脚本执行

PlayInJava
7年前
335
1
评论

Spark 从零到开发（七）Spark SQL和DataFrame

方式一和方式二最大的区别在哪呢，通俗点说就是获取字段类型的手段不同。方式一通过java反射，但是要有javabean当字段模版。方式二通过手动编码设置line的split对象的每个数据段的类型，不用创建javabean。

PlayInJava
7年前
731
1
评论

好了，到这里我们环境就配置好了。实例2. 监听一个指定的目录，每当有新文件出现，就需要把文件采集到HDFS中去大概意思是：监听/home/fantj/log/这个文件，并把它上传到hdfs://s166/weblog/flume-collection/%y-%m-%d/这个…

PlayInJava
7年前
1.1k
1
评论

Azkaban 简单入门

1. 安装其中，azkaban-web-server-2.5.0.tar.gz是服务器，azkaban-executor-server-2.5.0.tar.gz是执行服务器，azkaban-sql-script-2.5.0.tar.gz是执行的sql脚本。 2. mysql创…

PlayInJava
7年前
9.4k
19
评论

Spark 从零到开发（八）nginx日志清洗并持久化实战

1. 查看nginx日志格式我们需要根据这个格式来写正则表达式，对数据进行过滤。上面是我的日志格式。这是我nginx的日志配置。（centos版本默认配置）。 2. 正则表达式测试证明我们的正则可以使用。 3. Spark程序实现第一个表是log的全部数据内容，第二个表…

PlayInJava
7年前
1.6k
2
评论

Spark 从零到开发（三）初识RDD

（1）一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。（2）一个计算每个…

PlayInJava
7年前
199
1
评论