spark - 用户1219177148486的收藏集 - 掘金

spark

用户1219177148486

更多收藏集

46篇文章 · 0订阅

Spark学习（一）——运行模式与运行流程

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce和Storm流式实时计算引擎等。 Executor: 某个Application运行在worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Appl…

Hiway
7年前
4.7k
5
评论

大数据Hadoop之——Spark集群部署（Standalone）

@[TOC] 一、Spark概述二、Spark的运行模式 1）Standalone（本章讲解） 2）Mesos 3）YARN（推荐） yarn Client模式：Driver运行在本地，适合交互调试

大数据老司机
4年前
392
1
评论

大数据Hadoop之——Spark SQL+Spark Streaming

一、Spark SQL概述二、SparkSQL版本 1）SparkSQL的演变之路 1.0以前： Shark（入口：SQLContext和HiveContext） SQLContext：主要Data

大数据老司机
4年前
429
1
评论

大数据Hadoop之——计算引擎Spark

一、概述 1）Spark特点高效性：不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的

大数据老司机
4年前
537
1
评论

大规模数据处理Apache Spark分布式计算系统

Apache Spark 一个用于大规模数据处理的开源分布式计算系统。它可以在大数据集群中进行快速、可扩展、高效的数据处理和分析。 Spark 的核心概念是弹性分布式数据集（Resilient Dis

贺公子之数据科学与艺术
1年前
666
1
评论

大规模计算引擎Spark编程

Spark编程，作者介绍，大数据时代，第三次信息化浪潮第三次信息化浪潮，信息科技为大数据时代提供技术支撑，数据产生方式的变革促成大数据时代的来临。

java厂长
4年前
1.2k
34
评论

如何成为 Apache Spark 的 Contributor？

成为 Apache Spark 的 Contributor 有哪些基本要求？如何成为 Apache Spark 开源社区的一名贡献者？

Shockang
4年前
2.1k
6
评论

如何成为 Apache Spark 的 Contributor？

是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数…

七牛云
7年前
4.9k
32
2

是时候学习真正的 spark 技术了

Spark的Shuffle是怎么回事

Shuffle的中文含义是混洗，官方定义是：一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中，存在着大量的网络消耗传输数据，会在磁盘上产生大量的中间文件，在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shu…

西兰花是真的菜
6年前
3.1k
3
评论

本地spark连接CDH集群报错Hive support because Hive classes are not found解决

Hive support because Hive classes are not found问题解决

阿白308
3年前
637
1
评论