本文已参与「新人创作礼」活动,一起开启掘金创作之路。
1.5.5 分区器
partitioner.class
将数据写入存储时使用的分区程序。以下分区可用:
-
DefaultPartitioner保留Kafka分区。 -
DailyPartitioner根据日期对数据进行分区。 -
HourlyPartitioner根据小时划分数据。 -
FieldPartitioner根据中指定的分区字段的值将数据分区到不同的目录partition.field.name。 -
TimeBasedPartitioner根据摄取时间对数据进行分区。 -
类型:类
-
默认值:io.confluent.connect.storage.partitioner.DefaultPartitioner
-
重要性:高
-
家属:
partition.field.name,partition.duration.ms,path.format,locale,timezone
partition.field.name
使用分区字段的名称FieldPartitioner。您可以使用逗号分隔的名称输入多个分区字段名称。
- 类型:字符串
- 默认值:“”
- 重要性:中等
partition.duration.ms
所使用的分区毫秒数的持续时间TimeBasedPartitioner。默认值-1表示我们不使用TimeBasedPartitioner。
- 类型:长
- 默认值:-1
- 重要性:中等
path.format
当使用进行分区时,此配置用于设置数据目录的格式TimeBasedPartitioner。在此配置中设置的格式将Unix时间戳转换为正确的目录字符串。例如,如果设置path.format='year'=YYYY/'month'=MM/'day'=dd/'hour'=HH,则数据目录的格式为/year=2015/month=12/day=07/hour=15/。
- 类型:字符串
- 默认值:“”
- 重要性:中等
locale
使用进行分区时使用的语言环境TimeBasedPartitioner,用于格式化日期和时间。例如,en-US用于美国英语,en-GB英国英语或fr-FR法语(在法国)。这些可能因Java版本而异。查看可用的语言环境。
- 类型:字符串
- 默认值:“”
- 重要性:中等
timezone
使用进行分区时要使用的时区TimeBasedPartitioner,用于格式化和计算日期和时间。使用时区的标准短名称如UTC或(无日光节约)PST,EST和ECT,或更长的标准名称,如America/Los_Angeles,America/New_York,和Europe/Paris。这些可能因Java版本而异。查看每个语言环境中的可用时区,例如美国英语语言环境中的可用时区。
- 类型:字符串
- 默认值:“”
- 重要性:中等
timestamp.extractor
使用进行分区时获取记录时间戳记的提取器TimeBasedPartitioner。可以将其设置为Wallclock,Record或者RecordField使用内置的时间戳提取器之一,或者为其指定扩展TimestampExtractor接口的用户定义类的标准类名。
- 类型:字符串
- 默认值:挂钟
- 重要性:中等
timestamp.field
时间戳提取器用作时间戳的记录字段。
- 类型:字符串
- 默认值:时间戳
- 重要性:中等
1.5.6 Hive
hive.integration
指示运行连接器时是否与Hive集成的配置。
- 类型:布尔值
- 默认值:false
- 重要性:高
- 家属:
hive.metastore.uris,hive.conf.dir,hive.home,hive.database,schema.compatibility
hive.metastore.uris
Hive Metastore URI可以是IP地址或Metastore主机的标准域名和端口。
- 类型:字符串
- 默认值:“”
- 重要性:高
hive.conf.dir
配置单元配置目录
- 类型:字符串
- 默认值:“”
- 重要性:高
hive.home
配置单元主目录。
- 类型:字符串
- 默认值:“”
- 重要性:高
hive.database
连接器在Hive中创建表时要使用的数据库。
- 类型:字符串
- 默认值:default
- 重要性:高