首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
zed
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
Spark 系列(三)—— 弹性式数据集RDDs
一个 RDD 由一个或者多个分区(Partitions)组成。对于 RDD 来说,每个分区会被一个计算任务所处理,用户可以在创建 RDD 时指定其分区个数,如果没有指定,则默认采用程序所分配到的 CPU 的核心数; RDD 会保存彼此间的依赖关系,RDD 的每次转换都会生成一个…
Spark 系列(二)—— Spark开发环境搭建
Local 模式是最简单的一种运行方式,它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。 local[*]:启动跟 cpu 数目相同的工作线程数。 安装完成后可以先做一个简单的词频统计例子,感受 spark 的魅力。准备一个词频统计的文件样本 wc.txt,内…
Flink 系列(六)—— Flink 窗口模型
在大多数场景下,我们需要统计的数据流都是无界的,因此我们无法等待整个数据流终止后才进行统计。通常情况下,我们只需要对某个时间范围或者数量范围内的数据进行统计分析:如每隔五分钟统计一次过去一小时内所有商品的点击量;或者每发生1000次点击后,都去统计一下每个商品点击率的占比。在 …
Flink 系列(五)—— Flink Data Sink
在使用 Flink 进行数据处理时,数据经 Data Source 流入,然后通过系列 Transformations 的转化,最终可以通过 Sink 将计算结果进行输出,Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个较为简单的 Si…
Flink 系列(四)—— Flink Data Transformation
Flink 的 Transformations 操作主要用于将一个和多个 DataStream 按需转换成新的 DataStream。它主要分为以下三类: Physical partitioning:物理分区。Flink 提供的底层 API ,允许用户定义数据的分区规则; Ta…
Flink 系列(三)—— Flink Data Source
1. readTextFile(path):按照 TextInputFormat 格式读取文本文件,并将其内容以字符串的形式返回。示例如下: 2. readFile(fileInputFormat, path) :按照指定格式读取文件。 3. readFile(inputFor…
Flink 系列(一)—— Flink 核心概念综述
Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 StratoSphere 。2014 年,由 StratoSphere 项目孵化出 Flink,并于同年捐赠 Apache,之后成为 Apache 的顶级项目。2019 年 1 年,阿里巴巴收购了 Flink …
Storm 系列(八)—— Storm 集成 HDFS 和 HBase
这里 HDFS 的地址和数据存储路径均使用了硬编码,在实际开发中可以通过外部传参指定,这样程序更为灵活。 可以用直接使用本地模式运行,也可以打包后提交到服务器集群运行。本仓库提供的源码默认采用 maven-shade-plugin 进行打包,打包命令如下: 运行后,数据会存储到…
Storm 系列(一)—— Storm和流处理简介
Storm 是一个开源的分布式实时计算框架,可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式 RPC、ETL 等场景。Storm 具有以下特点: 支持图形化管理界面。 Hadoop 采用 MapReduce 处理数据,而 MapRedu…
跨库数据迁移利器 —— Sqoop
1. 查看所有命令 2. 查看某条命令的具体使用方法 1. 查询MySQL所有数据库 2. 查询指定数据库中所有数据表 1. 导入命令 示例:导出 MySQL 数据库中的 help_keyword 表到 HDFS 的 /sqoop 目录下,如果导入目录存在则先删除再导入,使用 …
下一页
个人成就
文章被点赞
36
文章被阅读
44,593
掘力值
1,153
关注了
0
关注者
78
收藏集
0
关注标签
3
加入于
2020-08-14