由 Elasticsearch 空间换时间的线上问题说开去......

hexiaox810

发布于 2023-1-31 14:56

浏览

0收藏

1、线上实战问题

请教一下各位朋友，关于 ngram 的 slop 影响搜索结果？

1、前置条件：

商品A的SPUCodeText为：OWBB050C99JER0021001
商品B的SPUCodeText为：VSA00293ABBLACKFW2022
商品C的SPUCodeText为：2WHGG0VNT03HHFC99FW2022

2、现况：搜索商品A的SPUCodeText编码：OWBB050，slop设置为49-54无法查询出该商品；slop设置为55及其以上的值，才可以查询出商品A；

3、追求目标：搜索SPUCodeText任意一组4个数字及其以上的组合，即可查询出该商品？

篇幅原因，省去了 DSL 定义和查询语句。

——题目来源：死磕Elasticsearch 知识星球

2、问题释义

大前提：商品码的存储类似之前咱们视频讲过的手机号的存储，传统的分词器（默认的 standard、中文的 ik_max_word 等）都无法搞定。

需要借助于 Ngram 自定义分词实现。

那么问题来了：Ngram 分词后的数据，用 match_phrase + slop 检索出现了问题，必须 slop 设置很大才可以搞定！

什么原因导致的呢？有没有更为简洁的方法？

3、Elasticsearch 空间换时间

啥叫空间换时间，拿当下世界杯的例子一看就明白。

如下解说员说的：“15人才能打赢”。15人比正常的11人远多4人，这就是多了空间，而换取了时间或结果。当然，比赛事实远非解说员所说。

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

Elasticsearch 中 Ngram 分词本质就是空间换时间的方式，以极小的粒度切分文档，空间存储激增、写入速度会受到影响，但换来了检索效率的提升！

4、精简问题后的实现

PUT /products-001
{
  "settings": {
     "max_ngram_diff": 40,
      "analysis": {
        "analyzer": {
          "ruishan_ngram_analyzer": {
            "filter": [
              "lowercase"
            ],
            "type": "custom",
            "tokenizer": "ruishan_ngram_tokenizer"
          }
        },
        "tokenizer": {
          "ruishan_ngram_tokenizer": {
            "token_chars": [
              "letter",
              "digit"
            ],
            "min_gram": 3,
            "type": "ngram",
            "max_gram": 40
          }
        }
      }
    },
  "mappings": {
     "properties" : {
        "id" : {
          "type" : "keyword"
        },
        "sPUCodeText" : {
          "type" : "text",
          "analyzer" : "ruishan_ngram_analyzer"
        }
      }
  }
}

PUT products-001/_bulk
{"index":{"_id":1}}
{"id":1,"sPUCodeText":"OWBB050C99JER0021001"}
{"index":{"_id":2}}
{"id":2,"sPUCodeText":"VSA00293ABBLACKFW2022"}
{"index":{"_id":3}}
{"id":3,"sPUCodeText":"2WHGG0VNT03HHFC99FW2022"}

GET products-001/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "sPUCodeText": {
              "query": "OWBB050"
            }
          }
        }
      ]
    }
  }
}1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.

看如下结果，一个 match 就可以搞定了！

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

再来，match_phrase 可以不？

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

那么match_phrase 加上较大的 slop 呢？能搞定吗？！

经反复测验，需要slop 至少设置 52 才可以搞定，如下所示。

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

为什么呢？为什么是 52 呢？

5、match_phrase 短语匹配检索的本质？

通俗点说：query 部分待检索语句（如开篇：OWBB050）的分词结果要和文档（如：OWBB050C99JER0021001）中的分词结果顺序和位次完全一致才可以！

可以通过 analyzer api 查看分词结果，如下所示：

POST products-001/_analyze
{
  "field": "sPUCodeText",
  "text": ["OWBB050C99JER0021001"]
}1.
2.
3.
4.
5.

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

分词后的词项单元，“OWBB050”如下图左侧所示，“OWBB050C99JER0021001”如下图右侧所示。

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

两者并不一致，这是导致无法匹配的原因，也就是有偏差！

6、match_phrase 短语检索下参数 slop 本质

一个图彻底搞明白！

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

相同颜色代表：待检索词和源文档中分词结果一样的词项。

最大差值的计算方法，比如：分词后的词项“050”，在待检索词中位次为 15，在源文档“OWBB050C99JER0021001”为67。

差了：67-15=52。

所以，slop 补齐这个最大的差值 52，就可以实现检索和数据的召回！

slop 设置为 51，就不可以！至少 52 或者52以上才可以召回数据。

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

7、小结

类似 Ngram 分词后，我们已经在空间层面下足了功夫！就没必要时间层面、检索层面下功夫了！

直接 match 检索必然能检索到结果！

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

如上的写法 filter 是可以走缓存的，推荐使用。

那，有没有更快的写法呢？

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

仔细的同学会发现，“OWBB05”都变成小写“owbb05”才可以召回数据，而直接大写直接 term 检索无法召回数据！

为什么呢？留给大家留言思考！

由 Elasticsearch 空间换时间的线上问题说开去......-鸿蒙开发者社区

文章转载自公众号：铭毅天下Elasticsearch

分类

其他

标签

Elasticsearch

已于2023-1-31 14:56:46修改

相关推荐

带你了解不一样的时间复杂度和空间复杂度

努力的IT小胖子 • 7937浏览 • 0回复
石鲲chassis换“芯”记 ~之~ 驱动步进电机

时空未宇 • 8735浏览 • 2回复
从一个线上问题看 Elasticsearch 数据清洗方式

samri • 6266浏览 • 0回复
Elasticsearch 问题解决方法论——你的问题是什么？

samri • 6934浏览 • 0回复
Elasticsearch 线上问题实战——如何借助 painless 更新时间？

r660926 • 6933浏览 • 0回复
Elasticsearch 线上问题排查——搞一天了，明天还要给客户解决这

r660926 • 6850浏览 • 0回复
两个 Elasticsearch 线上实战问题及解读

robinent • 7415浏览 • 0回复
Elasticsearch实战 | 必要的时候，还得空间换时间!

robinent • 6175浏览 • 0回复
线上问题复盘，JVM Fast Throw 的故事

Handpc • 6151浏览 • 0回复
2.时间复杂度与空间复杂度

大家好我是佩奇 • 6395浏览 • 0回复
在阿里内部是如何 Debug 线上问题的？

fatherlaw • 5608浏览 • 0回复
排查线上问题的9种方式

ywz888 • 7758浏览 • 0回复
Elasticsearch实战 | 必要的时候，还得空间换时间!

yyd2000 • 4600浏览 • 0回复
线上问题 | Redis哈希结构踩坑

baojunzh • 5061浏览 • 0回复
线上服务的FGC问题排查，看这篇就够了！

xbkong • 5692浏览 • 0回复
腊月27日凌晨的一个紧急 Elasticsearch 线上问题复盘

love374 • 3363浏览 • 0回复
可恶，又是个线上问题！

荔枝岛岛主 • 3542浏览 • 0回复
Elasticsearch 线上实战问题及解决方案探讨

heatdog • 3544浏览 • 0回复
#HarmonyOS连接·突破# 问题征集活动

HarmonyOS开发者社区 • 4979浏览 • 40回复

hexiaox810

这个用户很懒，还没有个人简介

帖子

视频

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

由 Elasticsearch 空间换时间的线上问题说开去......

1、线上实战问题

2、问题释义

3、Elasticsearch 空间换时间

4、精简问题后的实现

5、match_phrase 短语匹配检索的本质？

6、match_phrase 短语检索下参数 slop 本质

7、小结

目录

订阅鸿蒙技术特刊，精选内容抢先看