下载过StreamSets的同学,应该深有体会,那速度,比龟速还慢,因为它老断,实在是没法下载,这不,为了解决这个问题,我特意架上云梯拉了回来。
1、来自愚人节的发布
首先这不是一个谎言,新版本增加了一些功能和修正了一些bug。
- 版本3.22.1-2021年4月1日
- 版本3.22.0-2021年3月23日
2、新功能和增强功能
2.1 组件增强
- JDBC Lookup processor : 处理器包括新的“验证列映射”属性。
选中后,列映射列表中的所有列必须存在于管道启动时的数据库。默认情况下,新管道启用此属性。升级后的管道不受影响。
- JDBC Multitable Consumer origin :您可以为字符选择方括号。当从Oracle或PostgreSQL数据库读取时,也可以选择“无”。以前,这仅适用于MySQL和Microsoft SQL Server数据库。
- Kafaka stages:将SASL机制用作PLAIN复选框,已重命名为SASL机制并提供选项菜单。
- MongoDB stages:使用LDAP身份验证时,您可以配置身份验证选择服务器驱动的身份验证或普通身份验证的机制属性。
- MySQL Binary Log origin :增加新的属性 jdbc 连接属性。允许指定完整的JDBC连接字符串,以及带有可选参数。此属性替换主机名和端口属性。 使用凭据属性-可在凭据选项卡选择该选项。
- Oracle CDC origin: PEG分析器现在可以在生产中使用。它不再被认为是测试版功能。
- Salesforce stages:Salesforce现在支持通过OAuth连接到Salesforce。数据收集器将JWT实现用于机器对机器OAuth。新的“身份验证方法”属性允许选择OAuth或基本身份验证。
- Salesforce Origin:在变更或平台事件中,“重播选项”属性现在可用。以前,它仅在处理平台事件时可用。
- SFTP/FTP/FTPS Client stages :可将“协议”属性配置为明确声明您要使用的协议。以前,是根据指定的资源网址自动判定。这不会影响升级的管道
2.2、其他增强
- 新的分隔符解析器:您可以配置新的CSV解析器属性以启用在读取分隔的数据时使用Univocity解析器。Univocity解析器可以增强读取宽分隔文件时的管道性能。默认情况下,使用ApacheCommons解析器。升级的管道不受此更改的影响。
- 支持包-下载支持包时,您将不再包含管道快照或生成的统计信息。这是为了进一步保护您的数据隐私。
3、修复Bug
- SDC-16847:当Oracle CDC客户端管道失败,因为StreamSets的时区与Oracle数据库的时区不同。
- SDC-16843:数据收集器的“发布管道”和“下载已发布管道”按钮可以不起作用,并导致空指针异常。
- SDC-16806:MQTT订户源配置为使用Clean的持久会话禁用会话属性,不处理在管道之间到达的所有数据。
- SDC-16680:多次尝试同时启动和停止管道可能会导致管道无法启动。
4、升级
升级需要8步。
- 关闭旧版本
- 备份旧版本数据
- 安装新版本
- 更新环境变量
- 更新配置文件
- 安装额外的库
- 卸载旧版本库
- 开始新版本。
4.1 步骤1 关闭先前的版本
停止所有管道,然后关闭以前版本的Data Collector。
- 使用以下方法之一来停止所有正在运行的管道:
-
如果未注册与StreamSets Control Hub一起使用,请使用UI停止管道。 在主页上,选择列表中所有正在运行的管道,然后单击“停止”图标。
-
如果已将Data Collector注册为可与StreamSets Control Hub一起使用,请使用Control Hub UI停止在Data Collector上运行的所有作业。 在“控制中心 作业”页面上,按引擎和引擎标签过滤作业。在列表中选择所有活动的作业,然后单击“ 停止作业”图标。
- 使用以下方法之一关闭Data Collector:
-
要使用命令行进行关机,请对您的操作系统使用必需的命令。 对于CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6,请使用:
service sdc stop -
对于CentOS 7,Oracle Linux 7或Red Hat Enterprise Linux 7,请使用:
systemctl stop sdc -
要使用Data Collector UI,请单击管理>关闭。当出现确认对话框时,单击“ 是”。
4.2 步骤2 备份以前的版本
在安装新版本之前,请在先前版本的data和resource目录中创建文件的备份。您还需要创建环境配置文件的备份,以便在安装新版本时不会覆盖该文件。这样,您可以根据需要继续运行以前的版本。
备份以下目录和文件:
- 在SDC_DATA环境变量中定义的数据目录。默认值为
/var/lib/sdc。 - 在SDC_RESOURCES环境变量中定义的资源目录。默认值为
/var/lib/sdc-resources。 - 基于操作系统定义环境变量的文件:
CentOS 6的,甲骨文Linux 6中,或Red Hat企业版Linux 6 -的
$SDC_DIST/libexec/sdcd-env.sh文件。 CentOS的7,甲骨文的Linux 7,或红帽企业Linux 7 -的/usr/lib/systemd/system/sdc.service文件。 例如,如果你是升级版本3.0.0.0上的CentOS 6中,Oracle Linux 6中,或Red Hat Enterprise Linux 6中,备份数据采集器 的数据目录,并将它命名如下:/var/lib/sdc3000。创建环境配置文件的备份,并命名备份文件,如下所示:sdcd-env-3000.sh。
4.3 步骤3 安装新版本
安装新版本的RPM软件包。将完整的Data Collector作为服务安装需要root特权。
- 从以下位置之一访问Data Collector RPM软件包: StreamSets支持门户(如果您具有企业帐户)。 如果您没有企业帐户,则为StreamSets存档页面。
- 下载适用于您的操作系统的RPM软件包: 对于CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6,请下载RPM EL6软件包。 对于CentOS 7,Oracle Linux 7或Red Hat Enterprise Linux 7,请下载RPM EL7软件包。
- 使用以下命令将文件提取到与先前版本不同的目录中:
tar xf streamsets-datacollector-<version>-<operating_system>-all-rpms.tar例如,要在CentOS 7上解压缩版本3.22.0,请使用以下命令:tar xf streamsets-datacollector-3.22.0-el7-all-rpms.tar - 要安装完整的RPM软件包和所有可用的阶段库,请使用以下命令:
yum localinstall streamsets* - 或者,要安装核心RPM软件包,然后根据需要安装各个阶段库,请使用以下命令:
yum localinstall streamsets-datacollector-<version>-1.noarch.rpm例如,要安装版本3.22.0,请使用以下命令:yum localinstall streamsets-datacollector-3.22.0-1.noarch.rpm
4.4 步骤4 更新环境变量
对于所有环境变量,每个RPM安装都使用与先前版本相同的默认值。如果先前版本使用默认值,则将新版本配置为使用相同的环境变量。
如果先前版本对环境变量使用了自定义值,则必须在新版本中进行相同的自定义。新版本必须使用与先前版本相同的数据,日志和资源目录。
- 打开您在先前版本中备份的环境配置文件。
例如,在CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6上,打开
$SDC_DIST/libexec/sdcd-env-3000.sh文件。 - 在新版本的Data Collector中,打开环境配置文件。
例如,在CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6上,打开
$SDC_DIST/libexec/sdcd-env.sh文件。 - 比较环境配置文件的先前版本和新版本,并根据需要使用相同的自定义环境变量来更新新文件。
4.5 步骤5更新配置文件
新的Data Collector 版本可以包含新的属性和配置文件,这些数据和配置文件是Data Collector启动或正常运行所必需的。
当您安装新的RPM软件包时,配置文件将写入与先前版本相同的默认目录/etc/sdc。配置文件的新版本使用以下扩展名重命名: .rpmnew。例如,新版本的Data Collector配置文件被重命名为sdc.properties.rpmnew。
要更新配置文件,必须重命名文件的先前版本和新版本,然后使用先前版本中定义的任何自定义属性值更新新文件。
**注意:**如果先前版本使用的自定义值$SDC_CONF,则新配置文件将被写入与先前版本不同的目录,因此不需要.rpmnew文件扩展名。在这种情况下,您无需重命名配置文件,而必须使用先前版本中定义的任何自定义值来更新新文件。
- 在工作
$SDC_CONF目录中,/etc/sdc默认情况下,重命名所有以前的配置文件,但application-token.txt扩展名为的 文件除外.old。 该application-token.txt文件的先前版本包含此Data Collector实例向Control Hub发出经过身份验证的请求所需的身份验证令牌。结果,您将需要Data Collector来使用文件的先前版本。 - 从除文件之外的所有新配置文件中删除以下扩展名
application-token.txt:.rpmnew。 - 比较文件的先前版本和新版本sdc.properties ,并根据需要使用相同的自定义属性值更新新文件。
- 比较其余文件的先前版本和新版本,并根据需要使用相同的自定义属性值更新新文件:
- 根据您使用的身份验证类型,适当的realm.properties文件。
- 凭证存储属性文件
- email-password.txt
- 密钥库文件
- LDAP档案
- log4j属性文件
- 安全策略文件
- 保管箱属性文件
从2.7.0.0版开始,大多数保管库配置属性已移至新的凭证存储属性文件。这些属性使用相同的名称,并添加了
“ credentialStore.vault.config”前缀。如果要从2.7.0.0之前的版本升级,请将在先前Vault属性文件中自定义的所有值复制到凭据存储属性文件中的相同属性名称中。
4.6 步骤6为核心安装安装其他库
如果安装了核心RPM软件包,请安装升级的管道所需的各个阶段库。
有关安装其他阶段库的说明,请参阅《安装RPM》。
4.7 步骤7 卸载以前的库
卸载先前的Data Collector 版本使用的所有阶段库。
- 运行以下命令以列出先前的Data Collector 版本使用的所有阶段库:
rpm -qa | grep streamsets | grep "<version>"例如,要列出Data Collector版本3.0.0.0使用的所有阶段库,请运行以下命令:rpm -qa | grep streamsets | grep "3.0.0.0" - 运行以下命令来卸载先前版本使用的所有阶段库:
yum remove <library package name> <library package name> ...library package name您要卸载的库的全名在哪里 。用逗号分隔每个名称。命令中不要包含空格。
4.8 步骤8 启动新版本的Data Collector
使用操作系统所需的命令来启动新版本的Data Collector:
- 对于CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6,请使用:
service sdc start - 对于CentOS 7,Oracle Linux 7或Red Hat Enterprise Linux 7,请使用:
systemctl start sdc
5、小结
对于StreamSets的粉丝来说,升级更新是喜闻乐见的,希望这款软件越来越强大!
哦哦哦,好像有啥漏了,对! 下载。
链接:https://blog.csdn.net/codeex/article/details/115472127