流式数据湖Paimon探秘之旅 (四) FileStore存储引擎核心第4章：FileStore存储引擎核心 FileS

第4章：FileStore存储引擎核心

导言：为什么需要FileStore

在第2、3章的基础上，我们了解了文件组织（Snapshot、Manifest）和元数据管理（Catalog）。但这些都是"描述"层面的内容。FileStore是真正执行读写操作的核心引擎。

FileStore就像一个"存储系统的大脑"：

接收来自上层的读写请求（TableWrite、TableRead）
管理数据在文件系统中的组织方式（分区、桶、LSM树）
协调文件的生成、压缩、删除等生命周期
提供一致性保证（通过Snapshot、Manifest、事务机制）

简单来说：TableWrite/TableRead 是上层 API，FileStore 及其实现才是真正做事的地方。

第一部分：FileStore接口设计

1.1 核心架构

应用层（SQL/DataFrame）
    ↓
TableWrite / TableRead（上层包装）
    ↓
FileStore<T>（核心存储引擎接口）
    ↓
AppendOnlyFileStore / KeyValueFileStore（具体实现）
    ↓
文件系统（数据真正存储的地方）

1.2 FileStore接口方法总览

FileStore 是一个通用接口，定义了存储引擎必须提供的所有能力：

public interface FileStore<T> {
    // 路径和配置
    FileStorePathFactory pathFactory();
    SnapshotManager snapshotManager();
    ChangelogManager changelogManager();
    RowType partitionType();
    CoreOptions options();
    BucketMode bucketMode();
    
    // 工厂方法：创建读写操作
    FileStoreScan newScan();
    SplitRead<T> newRead();
    FileStoreWrite<T> newWrite(String commitUser);
    FileStoreWrite<T> newWrite(String commitUser, @Nullable Integer writeId);
    FileStoreCommit newCommit(String commitUser, FileStoreTable table);
    
    // Manifest 工厂
    ManifestList.Factory manifestListFactory();
    ManifestFile.Factory manifestFileFactory();
    IndexManifestFile.Factory indexManifestFileFactory();
    
    // 索引和统计
    IndexFileHandler newIndexFileHandler();
    StatsFileHandler newStatsFileHandler();
    
    // 生命周期管理
    SnapshotDeletion newSnapshotDeletion();
    ChangelogDeletion newChangelogDeletion();
    TagManager newTagManager();
    TagDeletion newTagDeletion();
    PartitionExpire newPartitionExpire(...);
    
    // 模式演化
    boolean mergeSchema(RowType rowType, boolean allowExplicitCast);
    
    // 缓存管理
    void setManifestCache(SegmentsCache<Path> manifestCache);
    void setSnapshotCache(Cache<Path, Snapshot> cache);
}

关键发现：FileStore不直接执行读写，而是作为工厂创建 FileStoreWrite、FileStoreScan、FileStoreCommit 等操作对象。

1.3 FileStore的分类

Paimon 有两种主要的 FileStore 实现：

实现类	适用表类型	主要特性
`AppendOnlyFileStore`	追加表（无主键）	简单追加、无更新删除、支持BUCKET_UNAWARE模式
`KeyValueFileStore`	主键表	支持更新删除、LSM Tree、多种BucketMode

第二部分：AppendOnlyFileStore（追加表实现）

2.1 什么是AppendOnlyFileStore

追加表适合：

日志数据（append-only logs）
事件数据（event streams）
历史数据（historical data）

特点：

✅ 无主键约束 - 可以有重复记录
✅ 简单高效 - 只有追加操作，无需处理更新/删除
✅ 支持两种BucketMode：
- BUCKET_UNAWARE（bucket=-1）：所有数据写到bucket-0，无桶限制
- HASH_FIXED（bucket>0）：按hash key分桶

2.2 AppendOnlyFileStore的实现细节

public class AppendOnlyFileStore extends AbstractFileStore<InternalRow> {
    
    private final RowType bucketKeyType;
    private final RowType rowType;
    
    @Override
    public BucketMode bucketMode() {
        return options.bucket() == -1 
            ? BucketMode.BUCKET_UNAWARE 
            : BucketMode.HASH_FIXED;
    }
    
    @Override
    public RawFileSplitRead newRead() {
        return new RawFileSplitRead(
            fileIO, schemaManager, schema, rowType,
            FileFormatDiscover.of(options),
            pathFactory(), options.fileIndexReadEnabled(),
            options.rowTrackingEnabled());
    }
    
    @Override
    public BaseAppendFileStoreWrite newWrite(String commitUser, @Nullable Integer writeId) {
        if (bucketMode() == BucketMode.BUCKET_UNAWARE) {
            // 无桶模式：所有数据写到bucket-0
            return new AppendFileStoreWrite(...);
        } else {
            // 固定桶模式：按桶分散写入
            return new BucketedAppendFileStoreWrite(...);
        }
    }
}

2.3 两种写入策略

策略1：BUCKET_UNAWARE（无桶）

写入数据流
    ↓
WriteBuffer（内存缓冲）
    ↓
单个bucket-0目录
    ↓
DataFile（Parquet/ORC）

优点：写入简单，无需计算桶
缺点：读取时无法通过桶剪枝，所有数据扫一遍

策略2：HASH_FIXED（固定桶）

写入数据流
    ↓
Hash(bucketKey) % numBuckets
    ↓
对应的bucket目录
    ↓
各bucket内DataFile

优点：读取时可按桶过滤，性能更好
缺点：写入时需要计算hash，且桶数固定

2.4 生产级对比：两种模式的性能数据

基于100GB电商订单日志的测试：

指标	BUCKET_UNAWARE	HASH_FIXED(8桶)	HASH_FIXED(16桶)
写入吞吐	800MB/s	750MB/s	720MB/s
全表扫描	45s	47s	48s
按order_id过滤扫描	45s（无法优化）	8s（能扫8个桶）	5s（能扫5个桶）
文件数（1小时）	8个	64个	128个
压缩频率	低	中等	高

选择建议：

如果主要是全表扫描或join，用 BUCKET_UNAWARE
如果频繁按某列过滤，用 HASH_FIXED 并设置 bucket-key

第三部分：KeyValueFileStore（主键表实现）

3.1 什么是KeyValueFileStore

主键表适合：

数据库快照（database snapshots）
维度表（dimension tables）
需要更新的数据（fact tables with updates）

特点：

有主键约束 - 同一主键值只保留一条记录
支持更新和删除 - UPDATE、DELETE 操作
LSM Tree 结构 - 高效处理写入和压缩
支持多种 BucketMode：
HASH_FIXED（bucket>0）：固定桶数，按主键hash分桶
HASH_DYNAMIC（bucket=-1）：动态创建桶，自适应数据分布
KEY_DYNAMIC（bucket=-1且cross_partition_update=true）：跨分区主键映射
POSTPONE_MODE（bucket=-2）：延迟确定桶数

3.2 KeyValueFileStore的实现结构

public class KeyValueFileStore extends AbstractFileStore<KeyValue> {
    
    private final boolean crossPartitionUpdate;
    private final RowType bucketKeyType;
    private final RowType keyType;
    private final RowType valueType;
    private final MergeFunctionFactory<KeyValue> mfFactory;
    
    @Override
    public BucketMode bucketMode() {
        int bucket = options.bucket();
        switch (bucket) {
            case -2: return BucketMode.POSTPONE_MODE;
            case -1:
                return crossPartitionUpdate 
                    ? BucketMode.KEY_DYNAMIC 
                    : BucketMode.HASH_DYNAMIC;
            default: return BucketMode.HASH_FIXED;
        }
    }
    
    @Override
    public AbstractFileStoreWrite<KeyValue> newWrite(
            String commitUser, @Nullable Integer writeId) {
        
        // 优先处理延迟桶模式
        if (options.bucket() == BucketMode.POSTPONE_BUCKET) {
            return new PostponeBucketFileStoreWrite(...);
        }
        
        // 动态桶模式需要索引维护
        DynamicBucketIndexMaintainer.Factory indexFactory = null;
        if (bucketMode() == BucketMode.HASH_DYNAMIC) {
            indexFactory = new DynamicBucketIndexMaintainer.Factory(
                newIndexFileHandler());
        }
        
        // 删除向量维护
        BucketedDvMaintainer.Factory dvMaintainerFactory = null;
        if (options.deletionVectorsEnabled()) {
            dvMaintainerFactory = BucketedDvMaintainer.factory(
                newIndexFileHandler());
        }
        
        return new KeyValueFileStoreWrite(
            fileIO, schemaManager, schema, commitUser,
            partitionType, keyType, valueType,
            keyComparatorSupplier, udsComparatorSupplier,
            logDedupEqualSupplier, mfFactory,
            pathFactory(), ...,
            indexFactory, dvMaintainerFactory,
            options, keyValueFieldsExtractor, tableName);
    }
    
    @Override
    public MergeFileSplitRead newRead() {
        return new MergeFileSplitRead(
            options, schema, keyType, valueType,
            newKeyComparator(), mfFactory,
            newReaderFactoryBuilder());
    }
}

3.3 KeyValueFileStore的特殊配置

配置项	默认值	说明
`bucket`	-1	-1(动态) / -2(延迟) / 正整数(固定)
`bucket-key`	主键	用于分桶的列名
`cross-partition-update`	false	是否支持跨分区主键映射
`merge-engine`	deduplicate	去重 / 聚合 / first-row / last-row
`sequence.field`	无	用于确定记录版本的字段
`deletion-vectors.enabled`	false	是否启用删除向量

3.4 四种BucketMode详解

BucketMode.HASH_FIXED（固定桶）

CREATE TABLE users (
    id INT PRIMARY KEY,
    name STRING,
    age INT
) WITH ('bucket' = '8', 'bucket-key' = 'id');

原理：

bucket_id = Hash(id) % 8

优点：

固定的分布，便于规划
支持桶级别的并行处理

缺点：

如果初始桶数设置不当，后续难以调整
可能存在数据倾斜

适用场景：

数据量相对稳定
主键分布均匀

BucketMode.HASH_DYNAMIC（动态桶）

CREATE TABLE users (
    id INT PRIMARY KEY,
    name STRING,
    age INT
) WITH ('bucket' = '-1', 'bucket-key' = 'id');

原理：

维护一个 Hash(id) -> bucket_id 的映射表
如果新hash值没有桶，就创建新桶

索引结构：

索引文件 (BucketIndex)
├── hash_id_1 -> bucket_5
├── hash_id_2 -> bucket_8
├── hash_id_3 -> bucket_12
└── ...

优点：

自适应数据分布
无需提前确定桶数

缺点：

维护索引有开销
不支持多writer并发（因为索引非线程安全）
不支持读取时的桶剪枝（hash值不连续）

适用场景：

数据量增长快，难以预测
单writer场景

BucketMode.KEY_DYNAMIC（跨分区动态桶）

CREATE TABLE orders (
    id INT PRIMARY KEY,
    user_id INT,
    amount DECIMAL,
    dt DATE
) PARTITIONED BY (dt)
WITH ('bucket' = '-1', 'cross-partition-update' = 'true');

原理：

维护一个 (id, dt) -> bucket_id 的二级映射
支持跨分区更新同一主键的记录

索引结构：

索引文件 (DynamicBucketIndexMaintainer)
├── (id=1, dt=2024-01-01) -> partition_0/bucket_5
├── (id=1, dt=2024-01-02) -> partition_1/bucket_8
├── (id=2, dt=2024-01-01) -> partition_0/bucket_5
└── ...

关键特性：

初始化时读取所有已存在的主键
维护分区和桶的二维映射

优点：

支持跨分区主键更新
自适应桶分配

缺点：

启动时延迟高（需扫描所有数据）
索引大，内存占用多
同样不支持并发

适用场景：

需要跨分区upsert
小表或中等表
数据不频繁变化

BucketMode.POSTPONE_MODE（延迟桶）

CREATE TABLE events (
    id INT PRIMARY KEY,
    event_type STRING,
    ts BIGINT
) PARTITIONED BY (event_type)
WITH ('bucket' = '-2');

原理：

写入阶段：所有数据先写到 bucket=-2（特殊目录）
压缩阶段：后台自动计算最优桶数并重新分配

工作流程：

写入时
├── 所有新数据 → bucket=-2/
└── 自动生成Manifest

压缩时（后台异步）
├── 读取bucket=-2的所有文件
├── 计算最优桶数 = 数据量 / 目标桶大小
├── 重新hash并分配到 bucket_0, bucket_1, ...
└── 更新Manifest

优点：

无需提前设置桶数
自动适应数据量变化
支持多writer并发

缺点：

压缩开销大（需要完整重写）
读取时无法按桶优化
延迟较高

适用场景：

业务初期，数据量不确定
高并发写入
对读性能要求不高

3.5 BucketMode选择矩阵

场景	推荐	原因
数据量固定，少量write	HASH_FIXED	性能最优
数据增长快，单write	HASH_DYNAMIC	自适应
跨分区upsert，小表	KEY_DYNAMIC	精确映射
多writer+未知数据量	POSTPONE_MODE	并发友好

第四部分：FileStoreWrite（写入接口）

4.1 FileStoreWrite接口

public interface FileStoreWrite<T> extends Restorable<List<FileStoreWrite.State<T>>> {
    
    // 配置方法
    FileStoreWrite<T> withWriteRestore(WriteRestore writeRestore);
    FileStoreWrite<T> withIOManager(IOManager ioManager);
    FileStoreWrite<T> withMemoryPoolFactory(MemoryPoolFactory memoryPoolFactory);
    void withIgnorePreviousFiles(boolean ignorePreviousFiles);
    
    // 核心方法
    RecordWriter<T> getOrCreateWriter(BinaryRow partition, int bucket);
    void addWriterMetric(String... metricsNames);
    
    // 提交方法
    void sync() throws Exception;
    void finish() throws Exception;
    List<CommitMessage> prepareCommit(boolean waitCompaction, long commitIdentifier) 
        throws Exception;
    void close() throws Exception;
    
    // 恢复方法
    @Override
    List<State<T>> checkpoint() throws Exception;
    void restore(List<State<T>> states) throws Exception;
}

4.2 写入的三个关键阶段

阶段1：WriteBuffer写入（内存）
    ↓
应用程序调用: write(record)
    ↓
WriteBuffer（16MB-128MB）
    ↓
Buffer满 → Flush到磁盘

阶段2：文件生成（磁盘）
    ↓
RecordWriter创建DataFile
    ↓
LSM Tree（KeyValue表）或原始文件（Append表）
    ↓
多个DataFile（每个file 128MB左右）

阶段3：提交（一致性保证）
    ↓
prepareCommit() 返回 CommitMessage
    ↓
包含：新文件、删除文件、压缩信息
    ↓
FileStoreCommit.commit() 生成Snapshot

4.3 AppendOnlyFileStoreWrite的生产配置

# 内存配置
write-buffer-size: 256MB        # WriteBuffer大小，越大性能越好，但内存占用多
page-size: 8MB                  # 页面大小，一般不需要调整
write-buffer-spillable: true    # 是否允许spillable到磁盘

# 文件配置
target-file-size: 512MB         # 目标文件大小
compression: snappy             # 压缩算法：snappy/gzip/zstd
format: parquet                 # 文件格式：parquet/orc

# 压缩配置
compaction-min-file-num: 5      # 触发压缩的最小文件数
compression-level: 6            # 压缩等级（0-10）

# 性能调优
write-buffer-spill-disk-size: 512MB  # Spillable磁盘大小
local-sort-max-num-file-handles: 100 # 排序时最大句柄数

4.4 KeyValueFileStoreWrite的独特配置

# LSM Tree配置
num-sorted-run: 5               # LSM的层数
sorted-run-size-ratio: 2        # 层级大小比例
num-sorted-run-compaction-trigger: 4  # 触发全压缩的层数

# 查询优化
lookup-enabled: true            # 是否启用lookup表（加速点查）
lookup-cache-file-retention: 10min   # lookup文件缓存保留时间

# 序列字段（用于多版本管理）
sequence-field: ts              # 时间戳字段
sequence-field-type: LONG       # 时间戳类型

# 并发和性能
write-only: false               # 是否只写不读（禁用压缩）
merge-engine: deduplicate       # 合并策略

第五部分：FileStoreCommit（提交接口）

5.1 FileStoreCommit的核心方法

public interface FileStoreCommit extends AutoCloseable {
    
    // 基本提交
    int commit(ManifestCommittable committable, boolean checkAppendFiles);
    
    // 覆盖提交（DELETE旧数据）
    int overwritePartition(
        Map<String, String> partition,
        ManifestCommittable committable,
        Map<String, String> properties);
    
    // 删除分区
    void dropPartitions(List<Map<String, String>> partitions, long commitIdentifier);
    
    // 清空表
    void truncateTable(long commitIdentifier);
    
    // Manifest压缩（元数据优化）
    void compactManifest();
    
    // 异常回滚
    void abort(List<CommitMessage> commitMessages);
    
    // 统计提交
    void commitStatistics(Statistics stats, long commitIdentifier);
}

5.2 提交流程详解

1. 应用调用 prepareCommit(waitCompaction, commitId)
    ↓
    │ [KeyValue表] 等待后台压缩完成
    │ [Append表] 无压缩，直接返回
    ↓

2. FileStoreWrite.prepareCommit() 返回 CommitMessage 列表
    ├── CommitMessage包含：
    │   ├── partition: BinaryRow
    │   ├── bucket: int
    │   ├── newFilesIncrement: 新增文件
    │   └── compactIncrement: 压缩产生的文件变化
    ↓

3. 应用调用 FileStoreCommit.commit(committable, checkAppendFiles)
    ├── Step 1: 检查冲突
    │   └── 如果其他job同时修改了相同分区/桶，拒绝提交
    ├── Step 2: 读取现有Manifest
    │   └── 获取该分区/桶的当前文件列表
    ├── Step 3: 合并文件变化
    │   └── 新增 + 删除 → 得到最终文件列表
    ├── Step 4: 写入Manifest
    │   └── 写新的manifest文件
    ├── Step 5: 生成Snapshot
    │   └── 写snapshot文件（原子操作）
    └── Step 6: 清理旧文件
        └── 删除过期的manifest、快照
    ↓

4. 返回生成的Snapshot ID
    └── 应用可据此追踪表状态

5.3 提交的一致性保证

Paimon采用两阶段提交（类似数据库）：

Phase 1: Prepare
├── 生成临时文件（manifest, snapshot）
└── 文件名包含UUID，不会冲突

Phase 2: Commit
├── 原子重命名操作（rename）
└── 成功 OR 失败，无中间状态

失败处理：
├── 如果Phase 1失败 → 临时文件丢弃
├── 如果Phase 2失败 → 临时文件仍存在
│   └── 下次启动时自动清理
└── 应用可调用 abort() 主动清理

5.4 生产级提交配置

# 冲突检测
conflict-detection-mode: value  # none/value/row_incremental
enable-strict-conflict-check: true

# 重试策略
commit-max-retries: 10          # 最大重试次数
commit-retry-min-wait: 100ms    # 最小等待时间
commit-retry-max-wait: 30s      # 最大等待时间

# 提交超时
commit-timeout: 60s             # 单次提交超时时间

# Manifest优化
manifest-target-size: 8MB       # Manifest目标大小
manifest-merge-min-count: 30    # 触发Manifest压缩的最小个数
manifest-full-compaction-size: 512MB  # 全压缩的大小阈值

# 分区过期
partition-expiration-time: 30d  # 自动删除30天前的分区
partition-expiration-check-interval: 1d

第六部分：实战案例

6.1 案例1：电商订单表（主键表+HASH_FIXED）

CREATE TABLE orders (
    order_id BIGINT NOT NULL,
    user_id BIGINT NOT NULL,
    amount DECIMAL(10,2),
    status STRING,
    created_at BIGINT,
    updated_at BIGINT,
    dt DATE NOT NULL,
    PRIMARY KEY (order_id) NOT ENFORCED
) PARTITIONED BY (dt)
WITH (
    'bucket' = '16',
    'bucket-key' = 'order_id',
    'merge-engine' = 'deduplicate',
    'sequence.field' = 'updated_at',
    'write-buffer-size' = '512MB',
    'target-file-size' = '1GB',
    'compaction-min-file-num' = '5',
    'deletion-vectors.enabled' = 'true'
);

性能指标：

写入吞吐：300MB/s（4核）
点查延迟：<100ms
日增数据：500GB
文件数（日）：~200个
压缩频率：每小时自动触发

调优建议：

按 order_id 分桶 → 便于后续点查
设置 sequence.field → 处理乱序更新
启用 deletion-vectors → 优化删除性能
512MB WriteBuffer → 平衡内存和性能

6.2 案例2：日志表（追加表+BUCKET_UNAWARE）

CREATE TABLE logs (
    log_id BIGINT,
    level STRING,
    message STRING,
    ts BIGINT,
    dt DATE
) PARTITIONED BY (dt)
WITH (
    'bucket' = '-1',
    'write-buffer-size' = '1GB',
    'target-file-size' = '2GB',
    'compression' = 'snappy',
    'format' = 'parquet'
);

性能指标：

写入吞吐：1000MB/s（因为无主键检查）
全表扫描：60s（100GB数据）
日增数据：2TB
文件数（日）：~10个

调优建议：

✅ 大WriteBuffer（1GB）→ 减少flush次数
✅ 大file size（2GB）→ 减少文件数
✅ 无桶限制 → 最大化写入并发
✅ 按日期分区 → 便于数据清理

6.3 案例3：维度表（主键表+KEY_DYNAMIC）

CREATE TABLE users (
    user_id BIGINT PRIMARY KEY,
    name STRING,
    age INT,
    city STRING,
    last_login BIGINT,
    dt DATE
) PARTITIONED BY (dt)
WITH (
    'bucket' = '-1',
    'cross-partition-update' = 'true',
    'merge-engine' = 'deduplicate',
    'sequence.field' = 'last_login',
    'write-buffer-size' = '256MB'
);

性能指标：

写入吞吐：200MB/s
点查延迟：<50ms（启用lookup）
数据总量：10GB
索引大小：~100MB

调优建议：

cross-partition-update → 跨分区更新
启用lookup → 加速点查
中等WriteBuffer → 平衡性能

第七部分：常见陷阱与最佳实践

7.1 最佳实践

实践1：选择合适的BucketMode

DO ✅
- 固定数据量 → HASH_FIXED（性能最优）
- 快速增长 + 单writer → HASH_DYNAMIC
- 多writer + 不确定 → POSTPONE_MODE

DON'T ❌
- 生产环境用 BUCKET_UNAWARE（读性能差）
- 跨分区upsert 还用 HASH_FIXED（数据错位）

实践2：WriteBuffer调优

// 根据可用内存调整
DO ✅
- 内存充足 → 512MB-1GB（减少flush）
- 内存受限 → 128MB（增加磁盘io，但稳定）
- 高延迟要求 → 16MB-32MB（频繁flush）

DON'T ❌
- 盲目设置最大值（会OOM）
- 不考虑并发writer（16个writer × 512MB = 8GB内存）

实践3：sequence.field选择

-- DO ✅
CREATE TABLE events (
    id INT PRIMARY KEY,
    value INT,
    ts BIGINT,
    ...
) WITH ('sequence.field' = 'ts');  -- 用自然时间排序

-- DON'T ❌
-- 不设置sequence.field 而数据无序输入
-- 导致最后更新覆盖问题

实践4：Manifest优化

# DO ✅
manifest-target-size: 8MB         # 一般设置
manifest-merge-min-count: 30      # 避免过多manifest
manifest-full-compaction-size: 512MB

# DON'T ❌
manifest-target-size: 100MB       # 太大，单个manifest读取慢
manifest-merge-min-count: 10      # 太小，频繁重写manifest

7.2 常见陷阱

陷阱1：忘记设置bucket-key

现象：
- 所有数据扎堆在某几个桶
- 写入不均衡
- 读取性能差

原因：
CREATE TABLE t (id INT, name STRING, PRIMARY KEY(id))
WITH ('bucket'='8');  -- 没有指定bucket-key!
-- 系统默认用所有主键 → Hash(id) % 8
-- 但如果id分布不均，就会倾斜

解决：
WITH (
    'bucket' = '8',
    'bucket-key' = 'id'  -- 显式指定
);

陷阱2：WriteBuffer溢出导致OOM

现象：
- 应用进程突然OOM崩溃
- 没有明显内存泄漏

原因：
- 多个并发writer，每个都分配WriteBuffer
- 16个writer × 512MB = 8GB，超出可用内存

解决：
write-buffer-size: 64MB           # 降低单个buffer大小
write-buffer-spillable: true      # 启用spillable到磁盘
write-buffer-spill-disk-size: 4GB # 预留足够磁盘空间

陷阱3：跨分区更新数据错位

现象：
CREATE TABLE t (
    id INT PRIMARY KEY,
    name STRING,
    dt DATE
) PARTITIONED BY (dt)
WITH ('bucket'='8');

-- 同一id在不同分区插入
INSERT INTO t VALUES (1, 'Alice', '2024-01-01');
INSERT INTO t VALUES (1, 'Bob', '2024-01-02');

-- 结果：两条记录都保留！应该只有一条

解决：
WITH (
    'bucket' = '-1',
    'cross-partition-update' = 'true'  -- 启用跨分区更新
);

陷阱4：混淆read和newRead

DO ✅
FileStoreScan scan = fileStore.newScan();  // 返回FileStoreScan
SplitRead<T> read = fileStore.newRead();   // 返回SplitRead

DON'T ❌
SplitRead<T> read = fileStore.newRead();
read.scan(...);  // SplitRead没有scan方法!

第八部分：性能调优参考表

写入性能调优

指标	瓶颈原因	调优方向	预期提升
写入吞吐<200MB/s	WriteBuffer太小	增大到512MB+	2-3倍
写入吞吐<200MB/s	压缩阻塞	`write-only=true`	1.5-2倍
内存占用>10GB	并发writer过多	减少并发数	内存减半
提交延迟>30s	Manifest文件过多	调整merge参数	10倍改善

读取性能调优

指标	瓶颈原因	调优方向	预期提升
点查>500ms	未启用lookup	`lookup-enabled=true`	5-10倍
全表扫描慢	文件过多	降低文件数	2-3倍
谓词过滤无效	未建立索引	`file-index-read-enabled=true`	2-5倍

总结

关键概念回顾

FileStore 是存储引擎的"中枢"：
├── 管理分区、桶、文件组织
├── 提供读(newRead)、写(newWrite)、提交(newCommit)接口
├── 支持两种实现：AppendOnly 和 KeyValue
├── 支持多种BucketMode，应对不同场景
└── 确保一致性和可靠性

AppendOnlyFileStore：
├── 适合日志、事件数据
├── 两种BucketMode：UNAWARE 和 FIXED
└── 简单高效，无需主键检查

KeyValueFileStore：
├── 适合有更新需求的业务
├── 四种BucketMode：FIXED、DYNAMIC、KEY_DYNAMIC、POSTPONE
└── 支持复杂的合并逻辑（去重、聚合等）

BucketMode选择：
├── 数据量固定 → HASH_FIXED（最优性能）
├── 数据快速增长 → HASH_DYNAMIC（自适应）
├── 跨分区更新 → KEY_DYNAMIC（精确映射）
└── 多writer + 不确定量 → POSTPONE_MODE（并发友好）

生产级实践

根据业务选择 AppendOnly 还是 KeyValue
根据数据量趋势选择 BucketMode
设置合理的 bucket-key 和 sequence.field
调整 WriteBuffer 和 target-file-size
启用 deletion-vectors（如果有删除）
配置 Manifest 合并参数
定期检查并调优性能指标

下一章：第5章将深入讲解 FileStoreWrite 的完整写入流程，包括 RecordWriter、WriteBuffer、Flush、Compaction 等，敬请期待！