动态映射

Elasticsearch 处理一个位置的字段时,它通过【动态映射】来确定字段的数据类型且自动将该字段加到类型映射中。

有时这是理想的行为,有时却不是。或许你不知道今后会有哪些字段加到文档中,但是你希望它们能自动被索引。或许你仅仅想忽略它们。特别是当你使用 Elasticsearch 作为主数据源时,你希望未知字段能抛出一个异常来警示你。

幸运的是,你可以通过 dynamic 设置来控制这些行为,它接受下面几个选项:

  • true:自动添加字段(默认)
  • false:忽略字段
  • strict:当遇到未知字段时抛出异常
  • dynamic 设置可以用在根对象或任何 object 对象上。你可以将 dynamic 默认设置为 strict,而在特定内部对象上启用它:
    PUT /my_index
    {
        "mappings": {
            "my_type": {
                "dynamic":      "strict", <1>
                "properties": {
                    "title":  { "type": "string"},
                    "stash":  {
                        "type":     "object",
                        "dynamic":  true <2>
                    }
                }
            }
        }
    }
    
  • <1> 当遇到未知字段时,my_type 对象将会抛出异常
  • <2> stash 对象会自动创建字段
  • 通过这个映射,你可以添加一个新的可搜索字段到 stash 对象中:
    PUT /my_index/my_type/1
    {
        "title":   "This doc adds a new field",
        "stash": { "new_field": "Success!" }
    }
    
  • 但是在顶层做同样的操作则会失败:
    PUT /my_index/my_type/1
    {
        "title":     "This throws a StrictDynamicMappingException",
        "new_field": "Fail!"
    }
    

备注:将 dynamic 设置成 false 完全不会修改 _source 字段的内容。_source 将仍旧保持你索引时的完整 JSON 文档。然而,没有被添加到映射的未知字段将不可被搜索。

自定义动态索引

如果你想在运行时的增加新的字段,你可能会开启动态索引。虽然有时动态映射的 规则 显得不那么智能,幸运的是我们可以通过设置来自定义这些规则。

日期检测

当 Elasticsearch 遇到一个新的字符串字段时,它会检测这个字段是否包含一个可识别的日期,比如 2014-01-01。如果它看起来像一个日期,这个字段会被作为 date 类型添加,否则,它会被作为 string 类型添加。

  • 有些时候这个规则可能导致一些问题。想象你有一个文档长这样:{ "note": "2014-01-01" }
  • 假设这是第一次见到 note 字段,它会被添加为 date 字段,但是如果下一个文档像这样:{ "note": "Logged out" }
  • 这显然不是一个日期,但为时已晚。这个字段已经被添加为日期类型,这个 不合法的日期 将引发异常。
  • 日期检测可以通过在根对象上设置 date_detectionfalse 来关闭:
    PUT /my_index
    {
        "mappings": {
            "my_type": {
                "date_detection": false
            }
        }
    }
    
  • 使用这个映射,字符串将始终是 string 类型。假如你需要一个 date 字段,你得手动添加它。

提示:

Elasticsearch 判断字符串为日期的规则可以通过 dynamic_date_formats 配置 来修改。

动态模板

使用 dynamic_templates,你可以完全控制新字段的映射,你设置可以通过字段名或数据类型应用一个完全不同的映射。每个模板都有一个名字用于描述这个模板的用途,一个 mapping 字段用于指明这个映射怎么使用,和至少一个参数(例如 match)来定义这个模板适用于哪个字段。模板按照顺序来检测,第一个匹配的模板会被启用。例如,我们给 string 类型字段定义两个模板:

  • es: 字段名以 _es 结尾需要使用 spanish 分析器。
  • en: 所有其他字段使用 english 分析器。

我们将 es 模板放在第一位,因为它比匹配所有字符串的 en 模板更特殊一点

PUT /my_index
{
    "mappings": {
        "my_type": {
            "dynamic_templates": [
                { "es": {
                      "match":              "*_es", <1>
                      "match_mapping_type": "string",
                      "mapping": {
                          "type":           "string",
                          "analyzer":       "spanish"
                      }
                }},
                { "en": {
                      "match":              "*", <2>
                      "match_mapping_type": "string",
                      "mapping": {
                          "type":           "string",
                          "analyzer":       "english"
                      }
                }}
            ]
}}}
  • <1> 匹配字段名以 _es 结尾的字段.
  • <2> 匹配所有字符串类型字段。

match_mapping_type 允许你限制模板只能使用在特定的类型上,就像由标准动态映射规则检测的一样,(例如 stronglong

match 参数只匹配字段名,path_match 参数则匹配字段在一个对象中的完整路径,所以 address.*.name 规则将匹配一个这样的字段:

{
    "address": {
        "city": {
            "name": "New York"
        }
    }
}

unmatchpath_unmatch 规则将用于排除未被匹配的字段。

默认映射

通常,一个索引中的所有类型具有共享的字段和设置。用 _default_ 映射来指定公用设置会更加方便,而不是每次创建新的类型时重复操作。_default 映射像新类型的模板。所有在 _default_ 映射 之后 的类型将包含所有的默认设置,除非在自己的类型映射中明确覆盖这些配置。

  • 例如,我们可以使用 _default_ 映射对所有类型禁用 _all 字段,而只在 blog 字段上开启它:
    PUT /my_index
    {
        "mappings": {
            "_default_": {
                "_all": { "enabled":  false }
            },
            "blog": {
                "_all": { "enabled":  true  }
            }
        }
    }
    
  • _default_ 映射也是定义索引级别的动态模板的好地方。