理解 mapping—Elastic Stack 实战手册

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 映射(mapping)就像数据库中的 Schema ,描述了文档可能具有的字段或属性、每个字段的数据类型,比如 Text,Keyword,Integer 或 Date ,以及 Lucene 是如何索引和存储这些字段的。

970X90.png

· 更多精彩内容,请下载阅读全本《Elastic Stack实战手册》

· 加入创作人行列,一起交流碰撞,参与技术圈年度盛事吧

创作人:欧阳楚才

映射(mapping)就像数据库中的 Schema ,描述了文档可能具有的字段或属性、每个字段的数据类型,比如 text,keyword,integer 或 date ,以及 Lucene 是如何索引和存储这些字段的。

核心简单字段类型

Elasticsearch 支持如下简单字段类型:

  • 字符串: text,keyword
  • 整数:byte,short,integer,long
  • 浮点数: float,double
  • 布尔型: boolean
  • 日期: date
更多的字段类型比如 geo_point,ip,nested 等可以在链接处查看: https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html

当你索引一个包含新字段的文档之前,未曾出现 Elasticsearch 会使用动态映射,通过 JSON 中基本数据类型,尝试猜测字段类型,使用如下规则:

JSON 数据 字段类型
布尔型:true 或者 false boolean
整数:123 long
浮点数:123.45 double
字符串,有效日期:2021-05-01 date
字符串:foo bar text 和 keyword

注意:如果你通过引号 ( "123" ) 索引一个数字,它会被映射为字符串类型 text 和 keyword,而不是 long 。但如果这个字段已经映射为 long ,那么 Elasticsearch 会尝试将这个字符串转化为 long (在 coerce 设置为 true 的情况下),如果无法转化,则抛出一个异常。

查看映射

通过 /_mapping ,我们可以查看 Elasticsearch 在一个或多个索引中的映射。

Elasticsearch 文档写入示例:

PUT twitter/_doc/1
{
    "user": "kimchy",
    "post_date": "2009-11-15T13:12:00",
    "message": "Trying out Elasticsearch, so far so good?"
}

PUT twitter/_doc/2
{
    "user": "kimchy",
    "post_date": "2009-11-15T14:12:12",
    "message": "Another tweet, will it be indexed?"
}

PUT twitter/_doc/3
{
    "user": "elastic",
    "post_date": "2010-01-15T01:46:38",
    "message": "Building the site, should be kewl"
}

查看索引映射示例:

GET twitter/_mapping

Elasticsearch 根据我们索引的文档,为字段动态生成的映射:

{
  "twitter" : {
    "mappings" : {
      "properties" : {
        "message" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "post_date" : {
          "type" : "date"
        },
        "user" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

注意:错误的映射,例如将年龄字段映射为 text 类型,而不是 integer ,会导致查询出现令人困惑的结果。

检查一下,而不是假设你的映射是正确的。

自定义字段映射

尽管在很多情况下基本字段数据类型已经够用,但你经常需要为单独字段自定义映射,特别是字符串字段。自定义映射允许你执行下面的操作:

  • 全文字符串字段和精确值字符串字段的区别
  • 使用特定语言分析器
  • 优化字段以适应部分匹配
  • 指定自定义数据格式
  • 还有更多

字段最重要的属性是 type 。

{
    "number_of_clicks": {
        "type": "integer"
    }
}

字符串字段类型,包括全文字符串 text 和精确值字符串 keyword。

text 类型字段的最重要属性是分析器 analyzer,默认 Elasticsearch 使用 Standard 分析器, 但你可以指定一个内置的分析器替代它,例如 whitespace 、 simple 、english、cjk:

{
   "message": {
    "type": "text",
    "analyzer": "cjk"
  }
}

创建/更新映射

当你首次创建一个索引的时候,可以指定类型的映射。你也可以使用 /_mapping 更新映射。

我们可以更新一个映射来添加一个新字段,但不能更新一个现有的 mapping 把它的字段类型从一个变为另外一个,比如从 text 变为 keyword。我

们可以在维持现有 mapping 的情况下,把一个字段变成一个 multi-field 字段。

为了描述指定映射的两种方式,我们先删除 twitter 索引:

DELETE twitter

创建一个新索引,指定 message 字段使用 cjk 分析器:

PUT twitter
{
  "settings": {
    "number_of_shards": "5",
    "number_of_replicas": "1"
  },
  "mappings": {
    "properties": {
      "user": {
        "type": "keyword"
      },
      "post_date": {
        "type": "date"
      },
      "message": {
        "type": "text",
        "analyzer": "cjk"
      }
    }
  }
}

通过消息体中指定的 mappings 创建了索引映射,索引设置 settings 中通过 number_of_shards 指定分片数,number_of_replicas 指定副本数。

给映射增加一个新的名为 tag 的 keyword 类型字段,使用 _mapping :

PUT twitter/_mapping
{
  "properties": {
    "tag": {
      "type": "keyword"
    }
  }
}

我们不需要再次列出所有已存在的字段,因为无论如何我们都无法改变它们,新字段已经被合并到存在的映射中。

测试映射

可以使用 analyze API 测试字符串字段的映射,比较下面两个请求的输出:

GET /twitter/_analyze
{
  "field": "message",
  "text": "搜索引擎" 
}

GET /twitter/_analyze
{
  "field": "tag",
  "text": "搜索引擎" 
}

消息体里面传入我们想要分析的文本。message 字段产生 3 个词条 ”搜索“、”索引” 和 ”引擎“, tag 字段产生单独的词条”搜索引擎“,换句话说,我们的映射正常工作。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
11月前
|
存储 JSON 数据库
带你读《Elastic Stack 实战手册》之17:—— 3.4.2.2.理解mapping(上)
带你读《Elastic Stack 实战手册》之17:—— 3.4.2.2.理解mapping(上)
|
11月前
|
数据格式 索引
带你读《Elastic Stack 实战手册》之17:—— 3.4.2.2.理解mapping(中)
带你读《Elastic Stack 实战手册》之17:—— 3.4.2.2.理解mapping(中)
|
11月前
|
搜索推荐 API 索引
带你读《Elastic Stack 实战手册》之17:—— 3.4.2.2.理解mapping(下)
带你读《Elastic Stack 实战手册》之17:—— 3.4.2.2.理解mapping(下)
|
11月前
|
自然语言处理
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(4)
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(4)
|
11月前
|
索引
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(1)
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(1)
|
11月前
|
索引
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(2)
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(2)
|
11月前
|
JSON 数据格式
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(5)
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(5)
|
11月前
|
存储 Java 大数据
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(6)
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(6)
|
11月前
|
JSON Java 数据格式
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(3)
带你读《Elastic Stack 实战手册》之25:——3.4.2.10.Dynamic Mapping(3)
|
11月前
|
机器学习/深度学习 存储 JSON
带你读《Elastic Stack 实战手册》之59:——3.5.16.3.Anomaly detection(5)
带你读《Elastic Stack 实战手册》之59:——3.5.16.3.Anomaly detection(5)