spark - 用户7417879718973的收藏集 - 掘金

spark

用户7417879718973

更多收藏集

15篇文章 · 0订阅

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

Apache Spark 自 2010 年面世，到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release···

尔达Erda
4年前
1.8k
点赞
评论

Spark应用资源分配详解

资源分配是Spark任务中需要深入理解的，如果相关的参数设置不合理，将会造成资源分配不均的情况，可能导致某些任务大量的资源消耗或者某些任务因等待资源而饥饿。本文主要梳理Spark应用基本的过程，然后会介绍如何设置Spark应用执行过程中executor的数量、每个executo…

绿岭和青坡
6年前
2.2k
2
1

Spark参数调优实践

参数设置方法 Spark任务在提交时，可以通过以下几种方式进行参数设置：环境变量通过配置文件spark-env.sh添加，如这种参数设置是全局的，并不适合所有任务，因而可以当作默认的来使用

Angryshark128
4年前
1.8k
点赞
评论

Hadoop YARN：调度性能优化实践

YARN作为Hadoop的资源管理系统，负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是Hive on MapReduce， Spark SQL为主…

美团技术团队
6年前
1.8k
18
1

Hadoop YARN：调度性能优化实践

Spark SQL小文件问题在OPPO的解决方案

Spark SQL小文件是指文件大小显著小于hdfs block块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈，对任务的稳定和集群的维护会带来极大的挑战。然而在我们将离线调度任务逐步从Hive迁移到Spark的过程中，由于Spark本身并不支持小文件合并功能…

安第斯智能云
5年前
6.2k
6
3

Spark Sql在UDF中如何引用外部数据

spark sql可以通过UDF来对DataFrame的Column进行自定义操作。本文将介绍在Spark UDF中引入外部资源数据的两种方法。

蝙蝠大侠
3年前
1.8k
2
评论

半小时，将你的Spark SQL模型变为在线服务

##SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用，比如在金融行业的反欺诈，媒体行业的新闻推荐，能源行业管道检测，而SparkSQL在这些AI应用中快速实现特征变换发挥

范式AI云
5年前
453
点赞
评论

半小时，将你的Spark SQL模型变为在线服务

Spark SQL：Hive数据源复杂综合案例实战

Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时，必须创建HiveContext，而不是SQLContext。HiveContext继承自SQLContext，但是增加了在Hive元数据库中查找表，以及用HiveQL语法编写SQL的功能。除了sql(…

丰泽
7年前
1.2k
点赞
评论

Spark SQL 字段血缘在 vivo 互联网的实践

字段血缘可以很好的帮助我们了解数据生成的处理过程，在探索中我们发现了可以通过Spark的扩展来优雅的实现这一功能

vivo互联网技术
3年前
1.6k
4
评论

没想到spark sql不能指定建表格式，居然是因为源码参数风格不统一？

当你遇到一个奇怪的问题的时候，不要轻易放弃，再研究下，也许问题并不复杂，而你能够解决掉它呢？希望你也能感受到解决问题后的快乐～

一匹二维马
2年前
2.1k
4
评论

没想到spark sql不能指定建表格式，居然是因为源码参数风格不统一？