大数据 - banksy的收藏集 - 掘金

大数据

更多收藏集

27篇文章 · 0订阅

Flink背压问题：从原理到源码

Flink对于背压的处理是通过在任务传递之间设置有界容量的数据缓冲区，当整个管道中有一个下游任务速度变慢，会导致缓存区数据变满，上游任务获取不到可用的缓冲区，自然而然地被阻塞和降速，这就实现了背压。

DaveCui
1年前
2.0k
4
评论

神策数据知识科普丨关于数据分析模型的十问十答

你想知道的，都在这里！本文是神策数据「十问十答」科普系列文章的第一期，围绕数据分析模型展开。 1 Q：常用的数据分析模型有哪些？ A：神策数据总结了企业常用的数据分析模型，包括：事件分析、漏斗分析、留

神策数据
2年前
196
点赞
评论

大数据前端团队生存指南

本文会简单介绍大数据、大数据前端团队以及可落地的演进方向。 ps.针对数据前端团队10人及以内的中小厂。开始前问几个问题：你了解大数据技术吗？为什么需要大数据前端团队（和大数据有什么关联）？

政采云技术
3年前
13k
74
4

大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数

大数据老司机
3年前
2.6k
7
3

大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

完爆90%的性能毛病，数据库优化八大通用绝招！

毫不夸张的说咱们后端工程师，无论在哪家公司，呆在哪个团队，做哪个系统，遇到的第一个让人头疼的问题绝对是数据库性能问题。如果我们有一套成熟的方法论，能让大家快速、准确的去选择出合适的优化方案，我相信能够

码猿技术专栏
3年前
8.8k
160
7

Spark 大厂面试题

Spark解决什么问题二 Spark为什么会有自己的资源调度器三 Spark运行模式四 Spark常用端口号五 Spark提交作业参数六 Spark的transformation算子

摸鱼专家
4年前
11k
204
评论

手把手教你 Spark 性能调优

上周四接到反馈，集群部分 spark 任务执行很慢，且经常出错，参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。看了下任务的历史运行情况，平均时间 3h 左右，而且极其不稳定，偶尔还会报错。

decli
8年前
2.2k
25
评论

Spark学习1-入门必知

前言：spark学习个人总结。主要参考已有的精品教程，部分加上自己的理解总结。引用未注明部分请联系更改。 spark是由伯克利于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。2013年，Spark加入Apache孵化器项目。如…

sherlocker
5年前
2.6k
1
评论

Spark之SparkStreaming案例-kafka

package com.chb.spark.import java.io.import java.util.import java.util.import java.util.import java.util.import java.util.import kafka.seria...

宝哥大数据
4年前
283
点赞
评论

Spark项目打包优化实践

问题描述在使用Scala/Java进行Spark项目开发过程中，常涉及项目构建和打包上传，因项目依赖Spark基础相关类包一般较大，打包后若涉及远程开发调试，每次打包都消耗多很多时间，因此需对此过程

Angryshark128
4年前
2.6k
4
评论