首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
用户7417879718973
更多收藏集
微信扫码分享
微信
新浪微博
QQ
15篇文章 · 0订阅
「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化
Apache Spark 自 2010 年面世,到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release···
Spark应用资源分配详解
资源分配是Spark任务中需要深入理解的,如果相关的参数设置不合理,将会造成资源分配不均的情况,可能导致某些任务大量的资源消耗或者某些任务因等待资源而饥饿。本文主要梳理Spark应用基本的过程,然后会介绍如何设置Spark应用执行过程中executor的数量、每个executo…
Spark参数调优实践
参数设置方法 Spark任务在提交时,可以通过以下几种方式进行参数设置: 环境变量 通过配置文件spark-env.sh添加,如 这种参数设置是全局的,并不适合所有任务,因而可以当作默认的来使用
Hadoop YARN:调度性能优化实践
YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。 美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。 离线业务主要运行的是Hive on MapReduce, Spark SQL为主…
Spark SQL小文件问题在OPPO的解决方案
Spark SQL小文件是指文件大小显著小于hdfs block块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈,对任务的稳定和集群的维护会带来极大的挑战。 然而在我们将离线调度任务逐步从Hive迁移到Spark的过程中,由于Spark本身并不支持小文件合并功能…
Spark Sql在UDF中如何引用外部数据
spark sql可以通过UDF来对DataFrame的Column进行自定义操作。本文将介绍在Spark UDF中引入外部资源数据的两种方法。
半小时,将你的Spark SQL模型变为在线服务
##SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥
Spark SQL:Hive数据源复杂综合案例实战
Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用HiveQL语法编写SQL的功能。除了sql(…
Spark SQL 字段血缘在 vivo 互联网的实践
字段血缘可以很好的帮助我们了解数据生成的处理过程,在探索中我们发现了可以通过Spark的扩展来优雅的实现这一功能
没想到spark sql不能指定建表格式,居然是因为源码参数风格不统一?
当你遇到一个奇怪的问题的时候,不要轻易放弃,再研究下,也许问题并不复杂,而你能够解决掉它呢?希望你也能感受到解决问题后的快乐~