本文已参与「新人创作礼」活动,一起开启掘金创作之路。
- Hive表数据查询(此处数据不完整是因为在配置flush.size=3导致剩余不够的数据没有刷新,flush.size=1时可以解决数据问题,会导致大量小文件的存在,通过配置发现可以根据时间滚动文件但都是最理想的情况)
2. HDFS 存储数据展示
# 查询现有的作业
curl -X GET http://localhost:8083/connectors
# 删除指定的作业
curl -X DELETE http://localhost:8083/connectors/hdfs3-sink
1.5 HDFS 2连接器配置选项
要使用此连接器,请在connector.class配置属性中指定连接器类的名称。
connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
连接器特定的配置属性如下所述。
1.5.1 HDFS
hdfs.url
HDFS连接URL。此配置的格式为hdfs :: // hostname:port,并指定要将数据导出到的HDFS。此属性已弃用,并将在以后的版本中删除。使用store.url代替。
- 类型:字符串
- 默认值:空
- 重要性:高
hadoop.conf.dir
Hadoop配置目录。
- 类型:字符串
- 默认值:“”
- 重要性:高
hadoop.home
Hadoop主目录。
- 类型:字符串
- 默认值:“”
- 重要性:高
logs.dir
顶级目录,用于存储预写日志。
- 类型:字符串
- 默认值:日志
- 重要性:高
1.5.2 安全
hdfs.authentication.kerberos
指示HDFS是否使用Kerberos进行身份验证的配置。
- 类型:布尔值
- 默认值:false
- 重要性:高
- 家属:
connect.hdfs.principal,connect.hdfs.keytab,hdfs.namenode.principal,kerberos.ticket.renew.period.ms
connect.hdfs.principal
HDFS使用Kerberos进行身份验证时使用的主体。
- 类型:字符串
- 默认值:“”
- 重要性:高
connect.hdfs.keytab
HDFS连接器主体的密钥表文件的路径。此密钥表文件仅应由连接器用户读取。
- 类型:字符串
- 默认值:“”
- 重要性:高
hdfs.namenode.principal
HDFS Namenode的主体。
- 类型:字符串
- 默认值:“”
- 重要性:高
kerberos.ticket.renew.period.ms
续订Kerberos票证的时间(以毫秒为单位)。
- 类型:长
- 默认值:3600000
- 重要性:低
1.5.3 连接器
format.class
将数据写入存储时使用的格式类。格式类实现io.confluent.connect.storage.format.Format接口。
- 类型:类
- 默认:
io.confluent.connect.hdfs.avro.AvroFormat - 重要性:高
这些类默认情况下可用:
io.confluent.connect.hdfs.avro.AvroFormatio.confluent.connect.hdfs.json.JsonFormatio.confluent.connect.hdfs.parquet.ParquetFormatio.confluent.connect.hdfs.string.StringFormat
flush.size
在调用文件提交之前写入存储的记录数。
- 类型:int
- 重要性:高
rotate.interval.ms
调用文件提交的时间间隔(以毫秒为单位)。此配置可确保在每个配置的间隔内调用文件提交。当数据摄取率较低且连接器未写入足够的消息来提交文件时,此配置很有用。默认值-1表示此功能已禁用。
- 类型:长
- 默认值:-1
- 重要性:高
rotate.schedule.interval.ms
定期调用文件提交的时间间隔(以毫秒为单位)。此配置可确保在每个配置的间隔内调用文件提交。提交时间将调整为所选时区的00:00。无论先前的提交时间或消息数量如何,提交都将在计划的时间执行。当您必须基于当前服务器时间(例如每小时开始时)提交数据时,此配置很有用。默认值-1表示此功能已禁用。
- 类型:长
- 默认值:-1
- 重要性:中等
schema.cache.size
Avro转换器中使用的架构缓存的大小。
- 类型:int
- 默认值:1000
- 重要性:低
retry.backoff.ms
重试退避(以毫秒为单位)。此配置用于通知Connect,以在发生临时异常时重试传递消息批处理或执行恢复。
- 类型:长
- 默认值:5000
- 重要性:低
shutdown.timeout.ms
清除关机超时。这样可以确保在连接器关闭期间完成异步Hive Metastore更新。
- 类型:长
- 默认值:3000
- 重要性:中等
filename.offset.zero.pad.width
如果偏移量太短,则商店的文件名中的宽度到零填充的偏移量可以提供固定宽度的文件名,可以通过简单的词典编目排序对其进行排序。
- 类型:int
- 默认值:10
- 有效值:[0,…]
- 重要性:低