首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Spark
17807 关注,1429 文章
关注
热门
最新
最热
脑容量不足
15小时前
Spark
大数据 T4 Spark基础(附实例分析)
这篇文章是接前文进行创作的(同一专栏内),之前已经解释过的概念在此不再赘述比如MapReduce,如果有兴趣从头到尾的详细了解,可以查看专栏:大数据 数据处理原理. 为什么要用spark 前文说过,H
145
1
评论
是奉壹呀
3天前
后端
Spark
Scala
spark快速开发之scala基础
面向java开发者。实际上,具有java基础学习scala是很容易。java也可以开发spark,并不比scala开发的spark程序慢。但学习scala可有助于更快更好的理解spark。
92
点赞
评论
是奉壹呀
8天前
后端
Spark
Structured Streaming 的异常处理 【Concurrent update to the log. Multiple streaming job
本文主要探讨 structured streaming实时处理多任务共享一个checkpoint检查点下的一个异常。
659
2
评论
北桥苏
8天前
Spark
Apache Hive
如何在IDE中通过Spark操作Hive
话说前面已经简单介绍过在windows下hadoop&hive环境搭建和基本使用,如果这次直接写Spark项目实践就有一点突兀,那么就暂且跳过,先在IDEA中安装bigData插件连接hadoop
135
2
1
是奉壹呀
9天前
后端
Spark
大数据
大数据领域实时计算的限速/反压机制
一个spark集群,资源总是有限。提交一个spark任务,申请的资源总是有限。所以合理的限速和反压显得非常重要。
209
1
评论
是奉壹呀
10天前
后端
大数据
Spark
distribute by在spark中的一些妙用
排序常用到的是 sort by和order by,本文重点为distribute by与两者的异同。
706
2
评论
是奉壹呀
21天前
后端
Spark
大数据
一次spark任务提交参数的优化
起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。
121
2
评论
WHY6666
25天前
Spark
大数据
Python
PySpark基础入门(6):Spark Shuffle
Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce输入中,涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等
278
1
评论
是奉壹呀
1月前
后端
Spark
大数据
揭开神秘面纱,会stream流就会大数据
只要你会任意一门语言的stream流操作,就没道理不会大数据开发。 如果说零基础学大数据,感觉前面是一座山,那么只要你会java或者任意一门语言的stream流,那大数据就隔层纱。
3380
27
3
WHYBIGDATA
1月前
Spark
大数据
机器学习
Spark机器学习库MLlib编程实践
Spark机器学习库MLlib编程实践 0. 写在前面 1. 正文 1.1 案例目的 1.2 案例 1.3 数据集展示 1.4 程序编写 0. 写在前面 操作系统:Linux(CentOS7.5) S
322
点赞
评论
WHYBIGDATA
1月前
Spark
大数据
Scala
Spark Streaming编程初级实践
Spark Streaming编程初级实践 写在前面 1. 安装Flume 安装命令 2.使用Avro数据源测试Flume 题目描述 Flume配置文件 执行命令 执行结果如下 3. 使用netcat
94
点赞
评论
京东云开发者
1月前
掘金·金石计划
Apache Hive
Spark
浅谈离线数据倾斜
用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承
450
1
评论
清茗一盏
1月前
Spark
sparksql源码解析-解析器源码分析
sparksql源码解析 1.sparkSQL的主要组件以及作用 Spark SQL是Apache Spark的一个模块,用于处理结构化和半结构化数据。它提供了编程接口,用于在大型分布式集群上进行数据
343
2
评论
WHYBIGDATA
1月前
Spark
大数据
Spark SQL 编程初级实践
Spark SQL 编程初级实践 写在前面 第1题:Spark SQL 基本操作 主程序代码 主程序执行结果 第2题:编程实现将 RDD 转换为 DataFrame 题目 主程序代码 主程序执行结果
625
点赞
评论
vivo互联网技术
1月前
Apache Hive
Spark
数据库
Hive 和 Spark 分区策略剖析
随着技术的不断发展,大数据领域对于海量数据存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在不同之处。
1676
7
1
三秋红叶
2月前
大数据
Spark
“来肝” spark-core
Spark Core 术语 Spark Core是整个Spark项目的核心,它包括了Spark的基本功能和API,包括RDD、任务调度和执行、部署和资源管理等。 Spark Core中还有很多其他的组
247
4
评论
一匹二维马
2月前
Spark
大数据
没想到spark sql不能指定建表格式,居然是因为源码参数风格不统一?
当你遇到一个奇怪的问题的时候,不要轻易放弃,再研究下,也许问题并不复杂,而你能够解决掉它呢?希望你也能感受到解决问题后的快乐~
1069
4
评论
自在的LEE
2月前
Kubernetes
大数据
Spark
隐藏的调度逻辑,ImageLocalityPriority 导致 Spark On Kubernetes 执行 Job Pod 调度不均匀 (包含源代码分析)
因为Kubernetes调度器中ImageLocalityPriority导致Spark的Job在在Kubernetes调度不均匀,导致大量Pod在Pending,影响生产。从源代码分析解决问题。
1.1w
3
2
朝朝mumu
3月前
Spark
性能优化
大数据
Spark调优指南
本文是关于Spark优化性能与内存使用的最佳实践,翻译整理自Tuning - Spark 3.3.2 Documentation。由于spark内存计算的特性,很多因素都会影响Spark的表现:CPU
4452
51
评论
fanstuck
3月前
掘金·日新计划
大数据
Spark
Spark框架深度理解:开发缘由及优缺点
开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 20 天,点击查看活动详情 一、开发Spark目的 如果要用到Spark那基本上离不开Hadoop,我们了解到为了弥补Hadoop
533
2
评论
温馨提示
当前操作失败,如有疑问,可点击申诉