大数据ETL工具 Streamsets

1,008 阅读3分钟

什么是StreamSets Data Collector?

StreamSets Data Collector是一个轻量级、强大的设计和执行引擎,可以实时处理流数据。使用Data Collector器来路由和处理数据流中的数据。

要定义数据流,需要在Data Collector中设计一个管道(pipeline)。管道由表示管道的起点和目的地的阶段以及希望执行的任何其他处理组成。在设计了管道之后,单击Start,Data Collector开始工作。 Data Collector在数据到达原点(origin)时处理数据,在不需要时静候。您可以查看有关数据的实时统计信息,在数据通过管道时检查数据,或者查看数据快照。

如何使用StreamSets Data Collector?

使用StreamSets Data Collector,就像数据流的管道一样。在整个企业数据拓扑中,都有需要移动、收集和处理到目的地的数据流。Data Collector提供数据流各个阶段之间的关键连接。

要解决您的数据接入需求,您可以使用单个Data Collector来运行一个或多个管道。或者您可以安装一系列Data Collector,以便在企业数据拓扑中传输数据。

它究竟是如何工作的?

让我们一起来看看……

安装并启动Data Collector之后,使用数据收集器UI登录并创建第一个管道(pipeline)。

你想让它做什么?假设您希望从一个目录读取XML文件,并在将其移到HDFS之前删除换行符。为此,您从一个目录源阶段(stage)开始,并将其配置为指向源文件目录。(您还可以让stage归档已处理的文件,并将未完全处理的文件写入单独的目录以供查看。)

若要删除换行符,请将目录连接到表达式计算程序处理器(Expression Evaluator processor),并将其配置为从记录的最后一个字段中删除换行符。

要使数据对HDFS可用,需要将表达式求值器组件(Expression Evaluator)连接到Hadoop FS目标阶段。您可以配置stage以JSON对象的形式编写数据(当然也可以使用其他数据格式)。

预览数据以查看源数据如何通过管道移动,并注意到一些字段缺少数据。因此,您需要添加一个字段替换器组件(Field Replacer)来替换这些字段中的空值。

现在数据流已经完成。您配置了管道错误记录处理以将错误记录写入文件,您创建了一个数据漂移警报,以让您知道字段名称何时发生更改,并且您配置了一个电子邮件警报,以让您知道管道何时生成了100多个错误记录。然后,启动管道,Data Collector开始工作。

Data Collector进入监视模式,并立即显示汇总和错误统计信息。要更仔细地查看活动,可以对管道进行快照,以便检查一组数据是如何通过管道传递的。您会在管道中看到一些异常的数据,因此需要为两个阶段之间的链接创建一个数据规则,以收集类似数据的信息,并设置一个警报,以便在数字过高时通知您。

那么那些被写入文件的错误记录呢?它们与错误细节一起保存,因此您可以创建一个错误管道来重新处理数据。果不其然!

StreamSets Data Collector是一个强大的工具,但是我们使它使用起来尽可能简单。所以尝试一下,点击帮助图标获取信息。wxgzh 登峰大数据