PiflowX

PiflowX

PiflowX

PiflowX大数据流水线系统。支持分布式计算引擎flink和spark。以所见即所得的方式，实现大数据采集、处理、存储与分析流程化配置、运行与智能监控。

等 4 人订阅共23篇文章创建于2023-12-27

Spark流水线数据质量检查组件

Spark流水线数据质量检查组件 1.组件说明该组件提供了一个可视化、交互式的数据质量规则设计器，支持多种校验类型和参数配置，便于灵活定义和管理数据校验逻辑。适用于需要灵活配置数据质量校验规则的场

4月前
37
点赞
评论

Spark流水线数据质量检查组件

Spark流水线数据探查组件

Spark流水线数据探查组件 1.Deequ简介 Deequ是AWS实验室开发的一款开源数据质量监控工具，它构建在Apache Spark之上，主要用于大规模数据集的质量验证。Deequ允许用户定义"

4月前
160
点赞
评论

Spark流水线在线演示

Spark流水线在线演示 1. 登录系统访问系统登录页面，输入账号密码完成身份验证。 2. 创建任务 • 入口：通过顶部菜单栏选择任务开发，或通过快捷入口快速创建任务。 • 任务类型：选择 Sp

6月前
480
1
评论

开源大数据流水线系统PiflowX本地开发调试

## 1.代码获取关注公众号`PiflowX`，发送“`源码`”获取github地址。 ##

10月前
190
1
评论

PiflowX-Faker组件

Faker组件组件说明根据每列提供的Data Faker表达式生成模拟数据。计算引擎 flink 有界性 count属性设置了便是有界的，否则为无界流。组件分组 common 端口 Inpor

1年前
45
点赞
评论

PiflowX-Faker组件

PiflowX-TopN组件

TopN组件组件说明按列排序的N个最小值或最大值。有界性 batch streaming 计算引擎 flink 组件分组 common 端口 Inport：默认端口 outport：默认端口组

1年前
64
点赞
评论

PiflowX新增Apache Beam引擎支持

PiflowX新增Apache Beam计算引擎。目前为止，PiflowX支持spark、flink和beam 3中计算引擎。

1年前
63
点赞
评论

PiflowX新增Apache Beam引擎支持

PiflowX组件-OrderBy

OrderBy组件组件说明 ORDER BY组件使结果行根据指定的表达式进行排序。计算引擎 flink 组件分组 common 端口 Inport：默认端口 outport：默认端口组件属性名

1年前
55
点赞
评论

PiflowX组件-OrderBy

PiflowX组件-FileWrite

使用FileWrite组件，可以将数据写入到flink支持的文件系统，比如本地文件系统或者hdfs.

1年前
100
点赞
评论

PiflowX组件-FileWrite

PiflowX组件-FileRead

FileRead组件可以读取指定路径的文件的内容，可以是本地路径，hdfs路径或者其他flink支持的文件系统的路径。

1年前
50
点赞
评论

基于PiflowX构建MySQL和Postgres的Streaming ETL

这篇文章将演示如何基于PiflowX快速构建 MySQL和Postgres的流式ETL。本教程的演示都将在WEB画布中进行，只需拖拉拽，无需一行Java/Scala代码，也无需安装IDE。

1年前
317
3
评论

基于PiflowX构建MySQL和Postgres的Streaming ETL

PiflowX组件-PostgresCdc

Postgres CDC连接器允许从PostgreSQL数据库读取快照数据和增量数据。示例演示了基于PiflowX构建MySQL和Postgres的Streaming ETL。

1年前
59
点赞
评论

PiflowX组件-PostgresCdc

PiflowX组件-OracleCdc

OracleCdc组件组件说明 Oracle CDC连接器允许从Oracle数据库读取快照数据和增量数据。计算引擎 flink 组件分组 cdc 端口 Inport：默认端口 outport：默认

1年前
51
点赞
评论

PiflowX-MysqlCdc组件

MysqlCdc组件组件说明 MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。计算引擎 flink 组件分组 cdc 端口 Inport：默认端口 outport：默认端口

1年前
99
点赞
评论

StreamPark + PiflowX 打造新一代大数据计算处理平台

为了流水线处理系统支持flink引擎，PiflowX应运而生，PiflowX基于Piflow二次开发（在此，向piflow作者和全体开发人员致敬！！！），对核心框架进行了重构，使算子组件接口抽象与计算

1年前
431
点赞
3

PiflowX组件-JDBCRead

JDBCRead组件组件说明使用JDBC驱动向任意类型的关系型数据库读取数据。计算引擎 flink 有界性 Scan Source: Bounded Lookup Source: Sync Mo

1年前
45
点赞
评论

PiflowX组件-JDBCWrite

JDBCWrite组件组件说明使用JDBC驱动向任意类型的关系型数据库写入数据。计算引擎 flink 有界性 Sink: Batch Sink: Streaming Append & Upser

1年前
41
点赞
评论

PiflowX组件-WriteToUpsertKafka

WriteToUpsertKafka组件组件说明以upsert方式往Kafka topic中写数据。计算引擎 flink 有界性 Streaming Upsert Mode 组件分组 kafka

1年前
51
点赞
评论

PiflowX组件-ReadFromUpsertKafka

ReadFromUpsertKafka组件组件说明 upsert方式从Kafka topic中读取数据。计算引擎 flink 有界性 Unbounded 组件分组 kafka 端口 Inport：

1年前
55
点赞
评论