Kafka Connect相关插件配置文档之三

312 阅读3分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

Kafka Connect相关插件配置文档之一

Kafka Connect相关插件配置文档之二

1.5.4 存储

storage.class

基础存储层。

  • 类型:类
  • 默认值:io.confluent.connect.hdfs.storage.HdfsStorage
  • 重要性:高
topics.dir

顶级目录,用于存储从ApacheKafka®提取的数据。

  • 类型:字符串
  • 默认值:主题
  • 重要性:高
store.url

商店的连接URL(如果适用)。例如:hdfs://hostname:port

  • 类型:字符串
  • 默认值:空
  • 重要性:高
directory.delim

目录定界符模式

  • 类型:字符串
  • 默认值:/
  • 重要性:中等
file.delim

文件分隔符模式

  • 类型:字符串
  • 默认值:+
  • 重要性:中等

1.5.5 分区器

partitioner.class

将数据写入存储时使用的分区程序。以下分区可用:

  • DefaultPartitioner 保留Kafka分区。

  • DailyPartitioner 根据日期对数据进行分区。

  • HourlyPartitioner 根据小时划分数据。

  • FieldPartitioner根据中指定的分区字段的值将数据分区到不同的目录partition.field.name

  • TimeBasedPartitioner 根据摄取时间对数据进行分区。

  • 类型:类

  • 默认值:io.confluent.connect.storage.partitioner.DefaultPartitioner

  • 重要性:高

  • 家属:partition.field.namepartition.duration.mspath.formatlocaletimezone

partition.field.name

使用分区字段的名称FieldPartitioner。您可以使用逗号分隔的名称输入多个分区字段名称。

  • 类型:字符串
  • 默认值:“”
  • 重要性:中等
partition.duration.ms

所使用的分区毫秒数的持续时间TimeBasedPartitioner。默认值-1表示我们不使用TimeBasedPartitioner

  • 类型:长
  • 默认值:-1
  • 重要性:中等
path.format

当使用进行分区时,此配置用于设置数据目录的格式TimeBasedPartitioner。在此配置中设置的格式将Unix时间戳转换为正确的目录字符串。例如,如果设置path.format='year'=YYYY/'month'=MM/'day'=dd/'hour'=HH,则数据目录的格式为/year=2015/month=12/day=07/hour=15/

  • 类型:字符串
  • 默认值:“”
  • 重要性:中等
locale

使用进行分区时使用的语言环境TimeBasedPartitioner,用于格式化日期和时间。例如,en-US用于美国英语,en-GB英国英语或fr-FR法语(在法国)。这些可能因Java版本而异。查看可用的语言环境

  • 类型:字符串
  • 默认值:“”
  • 重要性:中等
timezone

使用进行分区时要使用的时区TimeBasedPartitioner,用于格式化和计算日期和时间。使用时区的标准短名称如UTC或(无日光节约)PSTESTECT,或更长的标准名称,如America/Los_AngelesAmerica/New_York,和Europe/Paris。这些可能因Java版本而异。查看每个语言环境中可用时区,例如美国英语语言环境中可用时区

  • 类型:字符串
  • 默认值:“”
  • 重要性:中等
timestamp.extractor

使用进行分区时获取记录时间戳记的提取器TimeBasedPartitioner。可以将其设置为WallclockRecord或者RecordField使用内置的时间戳提取器之一,或者为其指定扩展TimestampExtractor接口的用户定义类的标准类名。

  • 类型:字符串
  • 默认值:挂钟
  • 重要性:中等
timestamp.field

时间戳提取器用作时间戳的记录字段。

  • 类型:字符串
  • 默认值:时间戳
  • 重要性:中等