zed

赞

0

|

搜索文章

Spark 系列（三）—— 弹性式数据集RDDs

一个 RDD 由一个或者多个分区（Partitions）组成。对于 RDD 来说，每个分区会被一个计算任务所处理，用户可以在创建 RDD 时指定其分区个数，如果没有指定，则默认采用程序所分配到的 CPU 的核心数； RDD 会保存彼此间的依赖关系，RDD 的每次转换都会生成一个…

5年前
622
1
评论

Spark 系列（二）—— Spark开发环境搭建

Local 模式是最简单的一种运行方式，它采用单节点多线程方式运行，不用部署，开箱即用，适合日常测试开发。 local[*]：启动跟 cpu 数目相同的工作线程数。安装完成后可以先做一个简单的词频统计例子，感受 spark 的魅力。准备一个词频统计的文件样本 wc.txt，内…

5年前
1.9k
2
1

Flink 系列（六）—— Flink 窗口模型

在大多数场景下，我们需要统计的数据流都是无界的，因此我们无法等待整个数据流终止后才进行统计。通常情况下，我们只需要对某个时间范围或者数量范围内的数据进行统计分析：如每隔五分钟统计一次过去一小时内所有商品的点击量；或者每发生1000次点击后，都去统计一下每个商品点击率的占比。在 …

5年前
646
点赞
评论

Flink 系列（五）—— Flink Data Sink

在使用 Flink 进行数据处理时，数据经 Data Source 流入，然后通过系列 Transformations 的转化，最终可以通过 Sink 将计算结果进行输出，Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个较为简单的 Si…

5年前
1.3k
点赞
评论

Flink 系列（四）—— Flink Data Transformation

Flink 的 Transformations 操作主要用于将一个和多个 DataStream 按需转换成新的 DataStream。它主要分为以下三类： Physical partitioning：物理分区。Flink 提供的底层 API ，允许用户定义数据的分区规则； Ta…

5年前
989
1
评论

Flink 系列（三）—— Flink Data Source

1. readTextFile(path)：按照 TextInputFormat 格式读取文本文件，并将其内容以字符串的形式返回。示例如下： 2. readFile(fileInputFormat, path) ：按照指定格式读取文件。 3. readFile(inputFor…

5年前
984
点赞
评论

Flink 系列（一）—— Flink 核心概念综述

Apache Flink 诞生于柏林工业大学的一个研究性项目，原名 StratoSphere 。2014 年，由 StratoSphere 项目孵化出 Flink，并于同年捐赠 Apache，之后成为 Apache 的顶级项目。2019 年 1 年，阿里巴巴收购了 Flink …

5年前
2.7k
6
评论

Storm 系列（八）—— Storm 集成 HDFS 和 HBase

这里 HDFS 的地址和数据存储路径均使用了硬编码，在实际开发中可以通过外部传参指定，这样程序更为灵活。可以用直接使用本地模式运行，也可以打包后提交到服务器集群运行。本仓库提供的源码默认采用 maven-shade-plugin 进行打包，打包命令如下：运行后，数据会存储到…

5年前
144
点赞
评论

Storm 系列（一）—— Storm和流处理简介

Storm 是一个开源的分布式实时计算框架，可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析，在线机器学习、持续计算、分布式 RPC、ETL 等场景。Storm 具有以下特点：支持图形化管理界面。 Hadoop 采用 MapReduce 处理数据，而 MapRedu…

5年前
566
点赞
评论

跨库数据迁移利器 —— Sqoop

1. 查看所有命令 2. 查看某条命令的具体使用方法 1. 查询MySQL所有数据库 2. 查询指定数据库中所有数据表 1. 导入命令示例：导出 MySQL 数据库中的 help_keyword 表到 HDFS 的 /sqoop 目录下，如果导入目录存在则先删除再导入，使用 …

5年前
701
点赞
评论

个人成就

文章被点赞 36

文章被阅读 44,593

掘力值 1,153

加入于

2020-08-14