首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
BigData
订阅
PlayInJava
更多收藏集
微信扫码分享
微信
新浪微博
QQ
17篇文章 · 0订阅
Spark 从零到开发(二)Spark安装和集群搭建
1. 配置环境变量 2. 配置/conf/spark-env.sh 3. 配置/conf/slaves.conf 将spark和scala 和配置文件拷贝到每个slave节点。 首先得启动hadoop或者只启动hdfs。start-dfs.sh命令。 jps查看并确保主从机的h…
Hive常用操作
1. 绑定数据 表示行格式用逗号来分割字段。 我创建在/home/fantj目录下。
Spark 从零到开发(四)单词计数的三种环境实现
我用的springboot搭建的环境,所以pom中需要将springboot内置的tomcat移除,我们不需要容器来执行java脚本。最后打成jar包将main方法的路径告诉hadoop即可,不需要容器。然后就是导入hadoop spark的相关依赖。没maven基础的先学习m…
Hadoop所有命令详解
将路径指定文件的内容输出到stdout。 成功返回0,失败返回-1。 改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。 改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必…
Spark 从零到开发(六)HiveContext
1. java本地执行 2. 集群脚本执行
Spark 从零到开发(七)Spark SQL和DataFrame
方式一和方式二最大的区别在哪呢,通俗点说就是获取字段类型的手段不同。 方式一通过java反射,但是要有javabean当字段模版。 方式二通过手动编码设置line的split对象的每个数据段的类型,不用创建javabean。
Flume入门
好了,到这里我们环境就配置好了。 实例2. 监听一个指定的目录,每当有新文件出现,就需要把文件采集到HDFS中去 大概意思是:监听/home/fantj/log/这个文件,并把它上传到hdfs://s166/weblog/flume-collection/%y-%m-%d/这个…
Azkaban 简单入门
1. 安装 其中,azkaban-web-server-2.5.0.tar.gz是服务器,azkaban-executor-server-2.5.0.tar.gz是执行服务器,azkaban-sql-script-2.5.0.tar.gz是执行的sql脚本。 2. mysql创…
Spark 从零到开发(八)nginx日志清洗并持久化实战
1. 查看nginx日志格式 我们需要根据这个格式来写正则表达式,对数据进行过滤。上面是我的日志格式。 这是我nginx的日志配置。(centos版本默认配置)。 2. 正则表达式测试 证明我们的正则可以使用。 3. Spark程序实现 第一个表是log的全部数据内容,第二个表…
Spark 从零到开发(三)初识RDD
(1)一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。 (2)一个计算每个…