首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
BigData
订阅
PlayInJava
更多收藏集
微信扫码分享
微信
新浪微博
QQ
17篇文章 · 0订阅
Spark 从零到开发(二)Spark安装和集群搭建
1. 配置环境变量 2. 配置/conf/spark-env.sh 3. 配置/conf/slaves.conf 将spark和scala 和配置文件拷贝到每个slave节点。 首先得启动hadoop或者只启动hdfs。start-dfs.sh命令。 jps查看并确保主从机的h…
Hive常用操作
1. 绑定数据 表示行格式用逗号来分割字段。 我创建在/home/fantj目录下。
Spark 从零到开发(四)单词计数的三种环境实现
我用的springboot搭建的环境,所以pom中需要将springboot内置的tomcat移除,我们不需要容器来执行java脚本。最后打成jar包将main方法的路径告诉hadoop即可,不需要容器。然后就是导入hadoop spark的相关依赖。没maven基础的先学习m…
Hadoop所有命令详解
将路径指定文件的内容输出到stdout。 成功返回0,失败返回-1。 改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。 改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必…
Spark 从零到开发(六)HiveContext
1. java本地执行 2. 集群脚本执行
Spark 从零到开发(七)Spark SQL和DataFrame
方式一和方式二最大的区别在哪呢,通俗点说就是获取字段类型的手段不同。 方式一通过java反射,但是要有javabean当字段模版。 方式二通过手动编码设置line的split对象的每个数据段的类型,不用创建javabean。
Flume入门
好了,到这里我们环境就配置好了。 实例2. 监听一个指定的目录,每当有新文件出现,就需要把文件采集到HDFS中去 大概意思是:监听/home/fantj/log/这个文件,并把它上传到hdfs://s166/weblog/flume-collection/%y-%m-%d/这个…
Azkaban 简单入门
1. 安装 其中,azkaban-web-server-2.5.0.tar.gz是服务器,azkaban-executor-server-2.5.0.tar.gz是执行服务器,azkaban-sql-script-2.5.0.tar.gz是执行的sql脚本。 2. mysql创…
Spark 从零到开发(八)nginx日志清洗并持久化实战
1. 查看nginx日志格式 我们需要根据这个格式来写正则表达式,对数据进行过滤。上面是我的日志格式。 这是我nginx的日志配置。(centos版本默认配置)。 2. 正则表达式测试 证明我们的正则可以使用。 3. Spark程序实现 第一个表是log的全部数据内容,第二个表…
Spark 从零到开发(三)初识RDD
(1)一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。 (2)一个计算每个…