elasticsearch 分词

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: analysis 分析是将文本 text 转化为 token 或 term 的过程。token 或 term 随后被添加至倒排索引(inverted index)用于检索。分析(analysis)过程是由分词器(analyzer)来完成的,分词器包括内置(built-in)分词器和自定义(cutsom)分词器。

analysis

分析是将文本 text 转化为 token 或 term 的过程。token 或 term 随后被添加至倒排索引(inverted index)用于检索。分析(analysis)过程是由分词器(analyzer)来完成的,分词器包括内置(built-in)分词器和自定义(cutsom)分词器。
分析(analysis)可以在以下两种情况下发生:

  1. index time
  2. search time

analyzer (分词器)

一个分词器由以下三部分组成,内置分词器主要是为了适应特定语言和文本类型,打包了不同组合的组件,组成了若干种预置分词器。以下组件还能单独暴露,自由组合成自定义分词器。

  • character filters

    • 以字符流的形式接收原始文本,增加、删除或修改字符,例如:剥离html标签,转换 (٠‎١٢٣٤٥٦٧٨‎٩‎) 为阿拉伯数字 (0123456789) 等。
    • 一个分词器可以包含0到多个character filters
  • tokenizers

    • 以字符流的形式接收文本,将它拆分成单个的 token (英文单词、中文单字或词语),输出 token stream (分词流)。
    • tokenizer 还负责记录每个分词的位置顺序,每个分词的首末字母的偏移量(offsets)
    • 一个分词器有且仅有一个 tokenizer
  • token filters

    • 以 token stream (分词流)的形式接收文本,增加、删除或修改分词,例如:单词大写转为小写,去除英文停用词 the,同义词 synonym 替换等操作
    • token filter 不修改分词的位置(position)和字符偏移量(character offsets)
    • 一个分词器可以包含0到多个token filters
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
目录
相关文章
|
2月前
|
存储 自然语言处理 搜索推荐
【Elasticsearch专栏 06】深入探索:Elasticsearch如何处理倒排索引中的分词问题
Elasticsearch通过内置和可定制的分词器及过滤器处理倒排索引中的分词问题,确保文本被拆分成合适的词条并优化存储,为全文搜索等提供高效支持。用户可通过分析API测试和调整分词效果。
|
4月前
|
自然语言处理 Java 关系型数据库
Elasticsearch【环境搭建 01】elasticsearch-6.4.3 单机版不能以root用户运行es 及 max_map_count 问题解决(含 安装包+分词插件 云盘资源)
Elasticsearch【环境搭建 01】elasticsearch-6.4.3 单机版不能以root用户运行es 及 max_map_count 问题解决(含 安装包+分词插件 云盘资源)
31 0
|
9月前
|
自然语言处理 算法 Docker
ElasticSearch学习笔记(四) IK分词
前面了解了Elasticsearch中对索引及文档的基本操作。今天了解Es中非常重要的一个概念:分词。在 Elasticsearch 中,中文分词的首选分词器是 ik 分词器。在本文中,我们将介绍如何使用 ik 分词器将商品名称(name)字段进行分词,并详细介绍分词过程及结果等。
328 2
|
10月前
|
存储 自然语言处理 搜索推荐
大数据数据存储的搜索引擎Elasticsearch的基本操作(含API使用)的文档操作的分词
搜索引擎Elasticsearch是一种流行的大数据存储和分析工具,它可以通过API来进行数据索引、查询和分析等操作。在本文中,我们将会介绍Elasticsearch的文档操作之一:分词。
60 1
|
11月前
|
自然语言处理 算法 应用服务中间件
Elasticsearch安装IK分词器、配置自定义分词词库
Elasticsearch安装IK分词器、配置自定义分词词库
316 0
|
自然语言处理 索引
elasticsearch hanlp插件自定义分词配置(停用词)
简述elasticsearch hanlp插件自定义分词配置,涉及停用词,专有名词
elasticsearch hanlp插件自定义分词配置(停用词)
|
自然语言处理
Elasticsearch自定义分析器analyzer分词实践
Elasticsearch自定义分析器analyzer分词实践
144 0
Elasticsearch自定义分析器analyzer分词实践
|
存储 自然语言处理 固态存储
初次使用 Elasticsearch 遇多种分词难题?那是你没掌握这些原理
命名有包含搜索关键词的文档,但结果却没有?存进去的文档被分成哪些词(term)了?自定义分词规则,但感觉好麻烦呢,无从下手?
5338 0
初次使用 Elasticsearch 遇多种分词难题?那是你没掌握这些原理
|
SQL 自然语言处理 安全
PHP使用elasticsearch搜索安装及分词方法
为什么会用到这个ES搜索?
422 0
|
自然语言处理 算法 Java
Elasticsearch实战(五)-倒排索引与分词(下)
Elasticsearch实战(五)-倒排索引与分词
171 0
Elasticsearch实战(五)-倒排索引与分词(下)

热门文章

最新文章