首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
【大数据】填坑大作战
怀瑾握瑜的嘉与嘉
创建于2021-11-16
订阅专栏
大数据运行时,遇到的问题与解决方案
暂无订阅
共18篇文章
创建于2021-11-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
spark调优(六):大家好才是真的好——广播变量
广播变量允许程序员在每台计算机上缓存只读变量,而不是将其副本与任务一起发送。例如,它们可以为每个节点提供一个大数据集的副本,而不用给每个 task 来传送一个副本。
用什么承受全部的数据-RDD、DataFrame还是Dataset
在后期的Spark版本中,DataSet有可能会逐步取代RDD和DataFrame成为唯一的API接口。
数据仓库分层——DWD DWS ADS傻傻分不清楚
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
离线批处理的咽喉——Flume基础配置简析
Flume的机制决定Flume更多是用离线数据落盘的场景中,作为数据落地的第一步,说是咽喉毫不为过。而Flume的配置,也决定你收集到的数据的格式、类型、大小等等。
Snappy你脱了马甲我照样认识你
Hive中对中间数据或最终数据都会做压缩处理,Snappy因为解压缩速度很快,并且可以进行分隔,是大数据存储中最常用的压缩方式
Hive说我变了,Spark说不你没变
hive说:我已经变了,你看人家presto就懂我,可以直接读我的信息;spark说:你不说,我怎么知道啊,我只读我的缓存里的,既然没有,就只能从头开始调查了
spark调优(五):提交任务优化
「这是我参与11月更文挑战的第15天,活动详情查看:2021最后一次更文挑战」 1. 起因 任务运行如何提高并发,如何有效利用资源,如何排列任务,这是spark调优的最后一道门槛,也是话费时间最长的地
spark调优(四):瘦身任务主体
「这是我参与11月更文挑战的第14天,活动详情查看:2021最后一次更文挑战」 1. 起因 刚接触大数据的时候,第一个接手的项目,好家伙,上来就打成一个zip包,200多M,每次打包需要等半天,每次提
spark调优(三):持久化减少二次查询
「这是我参与11月更文挑战的第13天,活动详情查看:2021最后一次更文挑战」 1. 起因 在我们接收到数据的时候,通常都需要etl处理一下,但原始数据最好也是入库保存一下最好,这样一份数据,我们就使
spark调优(二):UDF减少JOIN和判断
「这是我参与11月更文挑战的第12天,活动详情查看:2021最后一次更文挑战」 1. 起因 平时写sql语句的时候经常会有大表与小标做关联查询,然后再进行group by等逻辑分组处理,或者是有很多判
spark调优(一):从hql转向代码
「这是我参与11月更文挑战的第11天,活动详情查看:2021最后一次更文挑战」 1. 起因 日常大数据的处理,常见的数据输出就是最大最小值,求个和,求个平均数这种,常见的写法,写个hql,先分个组,在
Container killed by YARN for exceeding memory limits
「这是我参与11月更文挑战的第10天,活动详情查看:2021最后一次更文挑战」 经常我们提交任务到 yarn上后出现 内存溢出的错误 类似 这个错误总会使你的job夭折。它的意思是:因为超出内存限制,
Hive的UDF
「这是我参与11月更文挑战的第9天,活动详情查看:2021最后一次更文挑战」 我们学习hadoop的时候,为了让我们不太会java语言但是对SQL很熟悉的工程师能够操作基本的mapreduce计算过程
Non-terminating decimal expansion; no exact representable decimal result异常的解决方法
java.lang.ArithmeticException: Non-terminating decimal expansion; no exact representable decimal res
关于spark.sql.autoBroadcastJoinThreshold设置
今天使用spark对一组大数据进行合并作join操作,一直都报下面的错: 问题来分析说是内存溢出了,也就是说明广播内存不够用。但我不断设整任务的内存资源,无论是executor还是driver的内存都
hive数据导入:文件导入
「这是我参与11月更文挑战的第7天,活动详情查看:2021最后一次更文挑战」 1. 从本地文件系统导入数据到hive表 PS.注意,改方法已经在hdp3.x中不支持使用,所以这里不详细说明 基础语法如
hive Error SemanticException Unable to fetch table
一系列奇怪的操作后(建表中断、删表插入等。。) hive表想删除报错 经过百度,找到一个解决问题的办法 操作hive对应的Mysql 问题解决
spark报错memory used. Consider boosting spark.yarn.executor.memoryOverhead
使用spark运行数据处理事,虽然可以成功运行,但是看spark监控有fail出现,观察日志,发现有报错信息 memoryOverhead: 对应的参数就是spark.yarn.executor.me