Elasticsearch 中的 “Mapping”Elasticsearch（ES）中的 Mapping，本质是「索

Elasticsearch（ES）中的 Mapping，本质是「索引的字段元数据配置规则」—— 它定义了索引中每个字段的「数据类型」、「分词策略」、「索引行为」、「格式约束」等核心属性，相当于关系型数据库的「表结构（Schema）」，是 ES 理解和处理数据的 “说明书”。

没有 Mapping，ES 无法判断字段是文本还是数值、是否需要分词、如何构建倒排索引，进而无法实现高效检索。下面从「核心定义」「核心作用」「动 / 静态映射对比与适用场景」三部分详细拆解：

一、Mapping 的核心定义（通俗理解）

Mapping 是 JSON 格式的配置文件，存储在索引的元数据中，核心回答了 3 个问题：

索引包含哪些字段？（字段名：如 title、price、create_time）；
每个字段是什么类型？（如文本 text、数值 long、日期 date、地理坐标 geo_point）；
每个字段该如何处理？（如是否分词、用什么分词器、是否存储、是否支持排序 / 聚合）。

示例：一个简单的 Mapping 配置

{
  "mappings": {
    "properties": {
      "title": { 
        "type": "text",          // 字段类型：文本（需分词）
        "analyzer": "ik_max_word", // 分词器：IK分词（细粒度分词）
        "fields": {
          "keyword": {           // 多字段：保留原始字符串（不分词，用于精确匹配）
            "type": "keyword"
          }
        }
      },
      "price": { 
        "type": "double",        // 字段类型：数值（双精度）
        "index": true            // 允许索引（支持范围查询、聚合）
      },
      "create_time": { 
        "type": "date",          // 字段类型：日期
        "format": "yyyy-MM-dd HH:mm:ss" // 日期格式约束
      },
      "tags": { 
        "type": "keyword",       // 字段类型：关键词（不分词，精确匹配）
        "index": true
      }
    }
  }
}

这个 Mapping 明确了：title 是文本（分词检索）、price 是数值（范围查询）、create_time 是日期（按格式解析）、tags 是关键词（精确匹配）—— ES 会严格按照该规则处理数据。

二、Mapping 的核心作用（5 大核心价值）

Mapping 直接决定了 ES 如何「存储数据」和「检索数据」，核心作用体现在 5 个方面：

1. 定义字段类型，避免数据混乱

ES 是 schema-less 架构（无需提前定义结构即可写入数据），但字段类型若不明确，会导致严重问题：

例如：将 “手机号（13800138000）” 误判为 long 类型，会丢失 “前缀匹配”（如查询 “138 开头的手机号”）的检索能力；
Mapping 通过 type 明确字段类型（如 text/keyword/date/geo_point），确保 ES 以正确的方式解析和存储数据。

2. 控制索引行为，优化检索效率

Mapping 的 index 参数（默认 true）决定字段是否构建倒排索引：

index: true：字段会被分词（文本类型）或直接索引（关键词 / 数值类型），支持检索、过滤、聚合；
index: false：字段不构建倒排索引，仅存储数据（需通过 _source 字段获取），无法检索（适合存储无需查询的冗余信息，如 “文件原始内容”）。
示例：日志数据中的 “冗余字段”（如 raw_log）可设置 index: false，减少索引体积，提升写入和查询效率。

3. 配置分词策略，适配业务检索需求

文本类型（text）的核心是「分词」，Mapping 的 analyzer 参数决定分词规则：

例如：中文文本用 ik_max_word（细粒度分词，如 “Elasticsearch 教程” 拆为 “elasticsearch / 教程”），英文文本用 standard（按空格分词）；
若不配置分词器，ES 会用默认的 standard 分词器（中文会拆分为单个字，如 “教程” 拆为 “教 / 程”），导致检索效果极差（查询 “教程” 无法匹配）。

4. 支持特殊功能，扩展检索能力

很多 ES 高级功能依赖 Mapping 的字段类型配置：

日期范围查询：需将字段定义为 date 类型，并指定格式（如 yyyy-MM-dd）；
地理坐标检索（如 “查询附近 1km 的商家”）：需将字段定义为 geo_point 类型；
聚合分析（如 “按价格区间统计商品数量”）：需将字段定义为数值（long/double）或关键词（keyword）类型；
多字段检索（如 “标题分词检索 + 标题精确匹配排序”）：通过 fields 配置多字段（如 title.text + title.keyword）。

5. 数据验证与约束，保障数据质量

Mapping 可通过参数对字段进行约束，避免非法数据写入：

日期格式约束：date 类型的 format 参数限定输入格式（如仅允许 yyyy-MM-dd，写入 2024/01/01 会报错）；
字段长度约束：keyword 类型的 ignore_above 参数（如 ignore_above: 256），超过 256 字符的内容会被忽略，避免索引体积过大；
数值范围约束：部分类型支持 coerce 参数（默认 true，自动转换非法数值，如字符串 “123” 转为 long；设置为 false 时，非法数值直接报错）。

三、动态映射（Dynamic Mapping）vs 静态映射（Explicit Mapping）

ES 支持两种 Mapping 构建方式，核心区别在于「是否手动定义字段规则」，适用场景完全不同：

1. 动态映射（Dynamic Mapping）：ES 自动推断字段类型

定义

无需手动编写 Mapping，写入文档时，ES 会根据「文档字段的原始数据类型」自动推断字段类型，动态生成 Mapping 规则。

核心推断规则（ES 7.x+）

文档字段原始类型	ES 自动推断的字段类型	说明
字符串（如 “苹果”）	`text` + `keyword` 双字段	`text` 用于分词检索，`keyword` 用于精确匹配 / 聚合
数字（如 100/3.14）	整数→`long`，小数→`double`	自动适配数值范围
布尔值（true/false）	`boolean`	-
日期格式字符串（如 “2024-01-01”）	`date`	支持 `yyyy-MM-dd`、`ISO8601` 等默认格式
数组（如 [1,2,3]）	数组元素的类型（如 `long`）	数组无需单独定义类型，沿用元素类型
对象（如 {"name":"张三"}）	`object`	嵌套对象，会展开为子字段（如 `user.name`）

适用场景

快速原型验证：开发初期无需纠结字段细节，快速写入数据并测试检索效果（如临时分析一批日志）；
未知结构的数据：数据字段不固定（如用户自定义表单、多源日志），无法提前定义字段规则；
非核心业务数据：对检索精度、性能要求不高，无需精确控制分词器、字段约束（如临时存储的用户行为日志）；
迭代频繁的场景：字段经常新增 / 修改，手动维护 Mapping 成本高。

优缺点

优点：零配置成本、快速上手、适配字段多变场景；
缺点：推断可能不准确（如手机号被推断为 long、日期格式不匹配导致推断为 text），无法自定义分词器 / 约束规则，可能导致检索效率低或数据质量问题。

2. 静态映射（Explicit Mapping）：手动定义字段规则

定义

写入数据前，手动编写 Mapping 配置，明确每个字段的「类型、分词器、索引策略、约束规则」，ES 严格按照配置处理数据。

示例：电商商品索引的静态 Mapping

{
  "mappings": {
    "properties": {
      "product_id": { "type": "keyword", "index": true }, // 商品ID：精确匹配，支持聚合
      "product_name": { 
        "type": "text", 
        "analyzer": "ik_max_word", // 中文细粒度分词，提升检索命中率
        "fields": { "keyword": { "type": "keyword" } } // 多字段：支持精确匹配排序
      },
      "price": { "type": "scaled_float", "scaling_factor": 100 }, // 价格：精确到分，减少存储
      "category": { "type": "keyword" }, // 分类：精确匹配+聚合
      "create_time": { "type": "date", "format": "yyyy-MM-dd HH:mm:ss" }, // 日期格式约束
      "tags": { "type": "keyword" }, // 标签：多值精确匹配
      "location": { "type": "geo_point" } // 地理坐标：支持附近检索
    }
  }
}

适用场景

核心业务数据：如电商商品、新闻文章、用户信息等，对检索精度、性能、数据质量要求高；
需要自定义分词策略：中文文本需用 IK 分词器，英文文本需用 english 分词器（过滤停用词），动态映射无法满足；
需要特殊字段类型：如地理坐标（geo_point）、IP 地址（ip）、嵌套对象（nested）等，动态映射可能推断错误；
聚合 / 排序需求明确：如按价格排序、按分类聚合，需将字段定义为 keyword 或数值类型（动态映射可能导致 text 类型无法排序）；
数据质量要求高：需通过 format、ignore_above 等参数约束字段格式，避免非法数据写入。

优缺点

优点：检索精度高、性能优化好、数据质量可控，支持 ES 所有高级功能；
缺点：需提前规划字段规则，配置成本高，核心字段类型创建后无法修改（需重建索引）。

3. 动 / 静态映射核心对比表

对比维度	动态映射（Dynamic Mapping）	静态映射（Explicit Mapping）
定义方式	ES 自动推断，无需手动配置	手动编写配置，明确字段规则
字段类型准确性	可能不准确（如手机号→`long`）	完全准确，按需定义
分词器支持	仅用默认分词器（`standard`），中文效果差	支持自定义分词器（IK、jieba 等），适配业务场景
数据约束	无约束，允许非法数据写入	支持格式、长度、类型约束，保障数据质量
高级功能支持	有限（如地理坐标、嵌套对象可能推断失败）	完全支持（地理检索、聚合排序、多字段检索等）
配置成本	低，零学习成本	高，需熟悉字段类型、参数配置
适用数据类型	字段多变、非结构化 / 半结构化数据（日志、临时数据）	字段固定、结构化数据（核心业务数据）

四、关键补充：Mapping 的不可变性与混合使用技巧

1. Mapping 的不可变性

索引创建后，核心字段的类型无法修改（如 text 改为 keyword、long 改为 date）—— 因为字段类型决定了倒排索引的构建方式，修改会导致现有索引失效；
允许「新增字段」（默认 dynamic: true）：写入包含新字段的文档时，ES 会动态添加该字段到 Mapping（沿用动态推断规则）；
若需修改核心字段类型，需通过「重建索引（Reindex）」实现：创建新索引（新 Mapping），将旧索引数据迁移到新索引。

2. 动 / 静态映射混合使用

实际场景中，可结合两者优势：

核心字段（如 title、price、create_time）用静态映射，明确规则；
非核心字段（如用户自定义属性、扩展字段）用动态映射，允许自动新增（通过 dynamic: true 控制）；

示例：通过 dynamic_templates 配置，动态字段自动映射为 keyword 类型（避免推断为 text）：

{
  "mappings": {
    "dynamic_templates": [
      {
        "string_as_keyword": {
          "match_mapping_type": "string",
          "mapping": { "type": "keyword" }
        }
      }
    ],
    "properties": {
      "title": { "type": "text", "analyzer": "ik_max_word" } // 核心字段：静态映射
    }
  }
}

五、总结

Mapping 是 ES 处理数据的 “核心规则”，其设计直接决定检索效果和性能：

动态映射：“灵活快捷”，适合字段多变、非核心数据场景，快速上手验证；
静态映射：“精准可控”，适合字段固定、核心业务数据场景，保障检索质量和性能。