Spark干货合集

Spark干货合集

Spark干货合集

Spark干货合集

等 1 人订阅共25篇文章创建于2025-09-15

Spark SQL和Hive中的函数（五）：SparkSQL函数算子

本系列文章主要介绍Spark SQL/Hive中常用的函数，主要分为字符串函数、JSON函数、时间函数、开窗函数以及在编写Spark SQL代码应用时实用的函数算子五个模块。本篇文章主要介绍Spark

7天前
8
点赞
评论

Spark SQL和Hive中的函数（四）常用的开窗函数

function_name([argument_list]) OVER ( [PARTITION BY partition_expression,…] [ORDER BY sort_expressio

7天前
6
点赞
评论

Spark SQL和Hive中的函数（三）：时间函数

Spark SQL和Hive中的函数（三）：时间函数**更多干货抢先看：**[大数据干货合集](https://mp.weixin.qq.

8天前
7
点赞
评论

Spark SQL和Hive中的函数（二）：JSON函数

#### 1. get_json_object ``` -- v2 select get_json_object('{"k1": "v1", "k2": "v2"}', '$.k2');

10天前
9
点赞
评论

Spark SQL和Hive中的函数（一）：字符串函数

本系列文章主要介绍Spark SQL/Hive中常用的函数，主要分为字符串函数、JSON函数、时间函数、开窗函数以及在编写Spark SQL代码应用时实用的函数算子五个模块。

10天前
43
点赞
评论

SparkSQL: Cannot have map type columns in DataFrame which calls set operations(i

通过SparkSQL，对两个存在map类型字段的Hive表进行union操作，报如下错误： org.apache.spark.sql.AnalysisException: Cannot ha

11天前
8
点赞
评论

学好Spark必须要掌握的Scala技术点

更多干货抢先看：大数据技术干货合集前言 Scala是以JVM为运行环境的面向对象的函数式编程语言，它可以直接访问Java类库并且与Java框架进行交互操作。正如之前所介绍，Spark是用Scala语

1月前
61
2
评论

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？为了更好的说明导致问题的原因、现象以及解决方案，首先看下述示例：分别向t1

1月前
31
点赞
评论

Spark中广播变量详解以及如何动态更新广播变量

【前言：Spark目前提供了两种有限定类型的共享变量：广播变量和累加器，今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现：HttpBroadc

1月前
46
点赞
评论

Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件

首先说一下，这里解决的问题应用场景：sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？这里涉及到两种情况：select SQL查

1月前
18
点赞
评论

Spark闭包 | driver & executor程序代码执行

Spark中的闭包闭包的作用可以理解为：函数可以访问函数外部定义的变量，但是函数内部对该变量进行的修改，在函数外是不可见的，即对函数外源变量不会产生影响。其实，在学习Spark时，一个比较难理解的

2月前
20
点赞
评论

Spark SQL | 目前Spark社区最活跃的组件之一

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此S

2月前
121
点赞
评论

对Spark硬件配置的建议

对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出以下建议：存储系统在大数据领域，有一句"名言"：

2月前
31
点赞
评论

对Spark硬件配置的建议

在大数据领域，有一句"名言"：移动数据不如移动计算。主要因为数据量是庞大的，如果将数据从一个节点移动到另外一个节点甚至从一个局域网移动到另外一个局域网，就必然会牵涉到大量的磁盘IO和网络IO，这是非常影响性能的。而这里的计算可以理解为封装了你的业务处理代码的jar包，这个是很轻…

5年前
219
点赞
评论

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其…

5年前
618
点赞
评论

重要 | Spark和MapReduce的对比

首先纠正一个误区：在浏览Spark官网时，经常能看到如下这张图：从上图可以看出Spark的运行速度明显比Hadoop（其实是跟MapReduce计算引擎对比）快上百倍！相信很多人在初学Spark时，

2月前
36
点赞
评论

Spark生态圈概览篇

在说Spark之前，笔者在这里向对Spark感兴趣的小伙伴们建议，想要了解、学习、使用好Spark，Spark的官网是一个很好的工具，几乎能满足你大部分需求。同时，建议学习一下scala语言，主要基于两点：1. Spark是scala语言编写的，要想学好Spark必须研读分析它…

5年前
1.8k
2
评论

通过spark.default.parallelismSpark谈并行度

a. 本地模式：取决于本地机器的核数 b. 如果集群管理器是Mesos，则为8 c. 其他的：对比所有executor上总核数与2比较，哪个大是哪个你会发现，如果你使用reducebykey、groupByKey等这些带shuffle的算子，建议不要通过上述方法让程序内部去推…

5年前
171
点赞
评论

聊聊Spark的分区

通过上篇文章【Spark RDD详解】，大家应该了解到Spark会通过DAG将一个Spark job中用到的所有RDD划分为不同的stage，每个stage内部都会有很多子任务处理数据，而每个stage的任务数是决定性能优劣的关键指标。首先来了解一下Spark中分区的概念，其…

5年前
305
点赞
评论

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。基于recei…

5年前
287
点赞
评论