spark - yeping的收藏集 - 掘金

spark

更多收藏集

13篇文章 · 0订阅

Spark 踩坑记：数据库（Hbase+Mysql）

最近一个实时消费者处理任务，在使用 spark streaming 进行实时的数据流处理时，我需要将计算好的数据更新到 hbase 和 mysql 中，所以本文对 spark 操作 hbase 和 mysql 的内容进行总结，并且对自己踩到的一些坑进行记录。

腾讯云开发者
8年前
1.6k
22
评论

Spark 以及 spark streaming 核心原理及实践

作者在接触 spark 以及 spark streaming 之后，对 spark 技术的使用的经验积累以及心得体会，在此分享给大家。本文依次从 spark 生态，原理，基本概念，spark streaming 原理及实践，还有 spark 调优以及环境搭建等方面进行介绍，希望对大家有所帮助。

腾讯云开发者
8年前
1.1k
17
评论

借助 Redis ，让 Spark 提速 45 倍！

一些内存数据结构比其他数据结构来得更高效；如果充分利用 Redis，Spark 运行起来速度更快。

SDKcn
10年前
1.4k
47
1

借助 Redis ，让 Spark 提速 45 倍！

Spark 2.2.0 中文文档

Spark 2.2.0 中文文档

布客飞龙
8年前
1.1k
23
评论

基于 Python 的 Spark Streaming + Kafka 编程实践

Spark Streaming 的原理说明的文章很多，这里不做介绍。本文主要介绍使用 Kafka 作为数据源的编程模型, 编码实践, 以及一些优化说明。

稀土君
9年前
5.8k
39
1

如何基于 Spark Streaming 构建实时计算平台

随着互联网技术的迅速发展，用户对于数据处理的时效性、准确性与稳定性要求越来越高，如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战。自2015年携程实时计算平台搭建以来，经过两年多不断的技术演进，目前实时集群规模已达上百台，平台涵盖各个S…

GitChat
8年前
1.3k
8
评论

带有Apache Spark的Lambda架构

市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果？这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark（Core，SQL，Streaming），Ap…

腾讯云开发者
7年前
1.5k
17
评论

Spark 计算过程分析

Spark 是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark 延续了 Hadoop 的 MapReduce 计算模型，相比之下 Spark 的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时 Spark 也提供了更丰富的计算 API。

云栖小二
9年前
2.0k
29
评论

用 Apache Spark 2.2 中的结构化流处理 API 处理 Kafka 数据

本文用实际的例子演示了 Spark Structured Streaming 和 Kafka 整合的方法

chongzhe
8年前
2.3k
11
评论

用 Apache Spark 2.2 中的结构化流处理 API 处理 Kafka 数据