Data - sunshine8752的收藏集 - 掘金

Data

更多收藏集

23篇文章 · 0订阅

Spark 数据倾斜及其解决方案

本文从数据倾斜的危害、现象、原因等方面，由浅入深阐述Spark数据倾斜及其解决方案。对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。如果一台机…

vivo互联网技术
6年前
1.2k
10
评论

像看小说一样的大数据入门课

在当时谷歌提出这个是为了解决大量网页的内容抓取, 存储, 以及排名的问题的. 可以想象, 这个过程的存储于计算量是多么的庞大. 谷歌的这篇论文也表现了谷歌当时解决这个问题的思路: 部署一个大规模的服务器集群, 使用更多的普通机器完成这个任务而非少量的高性能服务器. 后来, Ha…

已注销
6年前
1.0k
3
3

什么是列式存储，一文秒懂

我们最先接触的数据库系统，大部分都是行存储系统。大学的时候学数据库，老师让我们将数据库想象成一张表格，每条数据记录就是一行数据，每行数据包含若干列。所以我们对大部分数据存储的思维也就是一个复杂一点的表格管理系统。我们在一行一行地写入数据，然后按查询条件查询过滤出我们想要的行记录…

码哥字节
6年前
25k
39
8

Flink入门（一）——Apache Flink介绍

ApacheFlink是什么？在当代数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源，

大数据流动
6年前
2.4k
9
评论

大数据和人工智能工程上的一些点

大数据这个词最早出现在上世纪90年代的美国，直到2012年后才火起来。大数据没有一个明确的概念，之所以称之为大是因为数据量太大超过了单台计算机的资源，这时就需要分布式的数据处理工具，以便能在用户可容忍的时间内进行数据处理。大数据从业人员肯定会去了解谷歌的mapreduce论文和…

超人汪小建
5年前
1.1k
3
评论

大数据和人工智能工程上的一些点

从Hadoop到Spark、Flink，大数据处理框架十年激荡发展史！

当前这个数据时代，各领域各业务场景时时刻刻都有大量的数据产生，如何理解大数据，对这些数据进行有效的处理成为很多企业和研究机构所面临的问题。本文将从大数据的基础特性开始，进而解释分而治之的处理思想，最后介绍一些流行的大数据技术和组件，读者能够通过本文了解大数据的概念、处理方法和流…

皮皮鲁的科技星球
6年前
3.5k
8
评论

Spark入门（四）--Spark的map、flatMap、mapToPair

在上一节Spark经典的单词统计中，了解了几个RDD操作，包括flatMap，map，reduceByKey，以及后面简化的方案，countByValue。那么这一节将介绍更多常用的RDD操作，并且为每一种RDD我们分解来看其运作的情况。 flatMap，有着一对多的表现，输入…

诗昭
7年前
7.9k
14
评论

Spark 的核心概念 RDD

RDD(Resilient Distributed Dataset) 叫着弹性分布式数据集，是Spark 中最基本的抽象，它代表一个不可变、可分区、里面元素可以并行计算的集合。 RDD 具有数据流模型特点：自动容错、位置感知性调度和可伸缩。 RDD 允许用户在执行多个查询时…

乔二爷
6年前
6.5k
6
1

《HBase 不睡觉》第一章 - 初识 HBase

Partition tolerance（分区容错性）：可靠性。很多人以为 NoSQL 是非 SQL 的意思，其实它是 Not Only SQL 的缩写，意思是不只是 SQL。与关系型数据库正好相反，非关系型数据库 NoSQL 对事务性的要求并不严格，甚至可以说是相当马虎。 …

rochy_he
7年前
5.7k
45
3

Elasticsearch+Fluentd+Kafka搭建日志系统

前言由于logstash内存占用较大,灵活性相对没那么好,ELK正在被EFK逐步替代.其中本文所讲的EFK是Elasticsearch+Fluentd+Kfka,实际上K应该是Kibana用于日志的展

四颗咖啡豆
6年前
3.5k
2
评论