首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
用户1219177148486
更多收藏集
微信扫码分享
微信
新浪微博
QQ
46篇文章 · 0订阅
Spark学习(一)——运行模式与运行流程
Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce和Storm流式实时计算引擎等。 Executor: 某个Application运行在worker节点上的一个进程,该进程负责运行某些Task,并且负责将数据存到内存或磁盘上,每个Appl…
大数据Hadoop之——Spark集群部署(Standalone)
@[TOC] 一、Spark概述 二、Spark的运行模式 1)Standalone(本章讲解) 2)Mesos 3)YARN(推荐) yarn Client模式:Driver运行在本地,适合交互调试
大数据Hadoop之——Spark SQL+Spark Streaming
一、Spark SQL概述 二、SparkSQL版本 1)SparkSQL的演变之路 1.0以前: Shark(入口:SQLContext和HiveContext) SQLContext:主要Data
大数据Hadoop之——计算引擎Spark
一、概述 1)Spark特点 高效性:不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的
大规模数据处理Apache Spark分布式计算系统
Apache Spark 一个用于大规模数据处理的开源分布式计算系统。它可以在大数据集群中进行快速、可扩展、高效的数据处理和分析。 Spark 的核心概念是弹性分布式数据集(Resilient Dis
大规模计算引擎Spark编程
Spark编程,作者介绍,大数据时代,第三次信息化浪潮 第三次信息化浪潮 ,信息科技为大数据时代提供技术支撑, 数据产生方式的变革促成大数据时代的来临。
如何成为 Apache Spark 的 Contributor?
成为 Apache Spark 的 Contributor 有哪些基本要求?如何成为 Apache Spark 开源社区的一名贡献者?
是时候学习真正的 spark 技术了
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数…
Spark的Shuffle是怎么回事
Shuffle的中文含义是混洗,官方定义是:一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中,存在着大量的网络消耗传输数据,会在磁盘上产生大量的中间文件,在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shu…
本地spark连接CDH集群报错Hive support because Hive classes are not found解决
Hive support because Hive classes are not found问题解决