带你体验最新版的DataOps 大数据平台——StreamSets ControlHub,简单到让人发指

5,682 阅读3分钟

这是我参与更文挑战的第9天,活动详情查看: 更文挑战

DataOps,顾名思义,其来源于DevOps的概念,提供全自动一体化的数据采集分析功能于一个篮子。 很早之前公司就有意向购买 ControlHub版本,我也因此联系了这家公司,只是很可惜,其负责人回邮件告诉我,中国境内目前并无销售渠道。而现在 Online的Beta版本已经来袭~~~,跟着我看看这个大平台的优势之所在?

1、呼之欲出的4.0版本

很早就看到StreamSets上线了 4.0的帮助,但是下载版里并没有,这让人非常好奇,StreamSets在憋什么大招呢?

是的,通过体验,我已经发现了秘密,这个版本将会打通自己的云原生关节,提供强大的下列功能:

  • job 管理
  • 调度Job管理
  • 负载、动态扩展
  • 函数片段支持
  • 云化平台
  • 分布式算力
  • 良好的监控和用户管理 在这里插入图片描述

2.体验入口

StreamSets公司发起了三季度体验活动,机会难得,想尝鲜的朋友不妨一试。

2.1 注册

注册入口在这里插入图片描述 登陆需要梯子,进去后按照向导,5分钟内搭建完毕。

2.2 搭建部署脚本

在这里插入图片描述

2.3 拷贝部署脚本

在这里插入图片描述 形如:

curl -s https://dev.hub.streamsets.com/streamsets-engine-install.sh | bash -s -- --deployment-id="1b72d612-b533-48f0-966b-927b488231a7:cd534f44-cf0f-11eb-a0cd-b3e334979695" --deployment-token="eyJ0eXAiOiJKV1QiLCJhbGciOiJub25lIn0.eyJzIjoiMTBjNGFmMTdlNWIwYzUwOGM4MGZhZmY3MjI4NjAzZDZmZDIwNGY4MmMwYzliYWY2MjQ5MDZmZjdiZWM0NmMyNWI1YjA4N2Q0MGM1Mjc3Y2E4YmQ0NGQ2MThmNTI3MDI1ZGE3ZTFlMGI0NTg2OTZkNzU2M2U3MGJiZjQ5NGE0MzIiLCJ2IjoxLCJpc3MiOiJkZXYiLCJqdGkiOiI5YmFiMDk1MS1mM2JhLTQxYTYtYjk0NC00ZTE4NzVlZDEwZTciLCJvIjoiY2Q1MzRmNDQtY2YwZi0xMWViLWEwY2QtYjNlMzM0OTc5Njk1In0." --sch-url="https://dev.hub.streamsets.com"

如果你复制我的脚本,将为我增加算力引擎,可以联系我,给你开个账号体验。当然你复制的是自己生成的脚本,那就可以直接体验了。

2.4 增加算力引擎

首先我们需要一台云主机~~~ 然后安装java sdk,再然后执行上面的脚本即可。

# 1.安装javasdk
yum -y install java-1.8.0-openjdk*

# 2. 复制你的部署脚本

注意算力平台需要1G+内存,因此保证你的内存充足。 在这里插入图片描述 一路按Y即可。 4.0的StreamSet已经部署OK,并且连接到你的云平台。

2.5 检查算力引擎

点开control hub平台的Setup - Engines,应该可以开到已经增加了一台算力计算机。 在这里插入图片描述

3 体验管道

点开 build的管道: 在这里插入图片描述 打开一个可以看到如下图,每个组件的图标焕然一新,配色很舒服。 在这里插入图片描述

3.1 让我们建立个采集管道

在这里插入图片描述 拖放组件放置好,一个管道分分钟搭建而成。

3.2 版本管理

云平台提供了 Check In功能,版本的问题很好的得到了解决。

在这里插入图片描述

3.3 运行预览

点击小眼睛图标。 在这里插入图片描述 数据预览如下: 在这里插入图片描述

4 体验片段(函数)

以前的SDC平台没办法建立函数,这多少让我们无法复用代码。 这个片段怎么样?

在这里插入图片描述

4.1 新建片段

我们构建一个简单的http请求片段,如下,就好了。 是的,片段不需要 源和目标, 源和目标就是函数的入参和返回值。

在这里插入图片描述

4.2 调试下片段

因为没有源,调试需要选择测试源。 在这里插入图片描述

4.3 版本管理

关于片段,其也同样拥有版本管理。

4.4 引用片段

建立一个新管道,我们引用刚建立的片段函数。 在这里插入图片描述 好嗨呀!

5 job

新加入的Job 就是这前简单运行管道的升级版。 在这里插入图片描述 监视信息很齐全。 在这里插入图片描述

5.1 建立job

在这里插入图片描述

5.2 建立调度Job

在这里插入图片描述 在这里插入图片描述 有了调度job,小伙伴还在发愁无法定期启动管道吗?

6 数据和算力监控

在这里插入图片描述 在这里插入图片描述

7 用户管理

告别简单用户管理,这里增加了常用的 用户、组、审计、api 认证Key等

在这里插入图片描述

8 小结

小伙伴是不是已经惊呆了?

给力的集成平台,是我们心中想的样子!

运行期间,并不需要梯子,运行超级流畅。 目前是Beta期间,也许后续会收费,希望不太贵。

喜欢,就点下关注、收藏!你的点击就是我前进的动力!