鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

鸿蒙开发者社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

活动短视频专栏极客Show 鸿蒙技术特刊

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节

r660926

发布于 2022-4-21 15:12

浏览

0收藏

Elasticsearch 5 之前的版本，评分机制或者打分模型基于 TF-IDF 实现。

从 Elasticsearch 5 开始，Elasticsearch 的默认相似度算法是 Okapi BM25，Okapi BM25模型于 1994 年提出，BM25 的 BM 是缩写自 Best Match, 25 是经过 25 次迭代调整之后得出的算法，该模型也是基于 TF/IDF 进化来的，Okapi 信息检索系统是第一个实现此功能的系统，之后被广泛应用在不同系统里。

相似性（评分/排名模型）定义了匹配文档的评分方式，对一组文档执行搜索并提供按相关性排序的结果。在这篇文章中，我们将一步步拆解 Okapi BM25 模型的内部工作原理。

在拆解评分算法之前，必须简单解释一下背后的理论——Elasticsearch 基于 Lucene。要了解 Elasticsearch，我们必须了解 Lucene。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

类似的公式，我看到后的第一反应：这是科研人员才能搞懂的事情，我等只能围观。

但，为了进一步深入算分机制，我们一个个参数拆解一下，期望能“拨开云天、豁然开朗”！

上述公式中：

• D：代表文档。
• Q：代表查询。
• K1：自由参数，默认值：1.2。
• b：自由参数，默认值：0.75。

参见 Lucene 官方文档：

https://lucene.apache.org/core/8_0_0/core/org/apache/lucene/search/similarities/BM25Similarity.html

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区
词频英文释义：TF(Term Frequency) ，即：分词单元（Term）在文档中出现的频率。

由于每个文本的长度不同，一个单词在长文档中出现的次数可能比短文档中出现的次数要多得多。

一个词出现的次数越多，它的得分就越高。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

逆文档频率英文释义: IDF(Inverse Document Frequency)，衡量分词单元Term的重要性。

但是，众所周知，诸如“the”、“is”、“of、“that”、“的”、“吗”等之类的特定词可能会出现很多次但重要性不大。

因此，我们需要通过计算以下公式来降低常用分词单元的权重，同时扩大稀有分词单元的权重。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

本文基于：7.12.0 版本的 Elasticsearch 进行拆解验证。

创建索引：got，并制定字段 quote 为 text 类型，同时指定：english 分词器。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区
bulk 批量导入数据，数据来自《权利的游戏》电视剧的台词。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

返回结果（仅列举评分、Quote 字段）如下：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区
这时候会面临我们的终极疑惑——这些评分咋来的？咋计算的呢？

别急，我们一步步拆解。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区
拿第一个返回文档也就是评分为：3.3297362 的结果数据为例，自顶向下的方法有利于理解计算。

如下拆解结果所示，分数 3.3297362 是分词单元 live 的 boost * IDF * TF 三者的乘积，简记为：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

explain 执行后的结果，核心部分如下所示：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

执行 explain 后，词频 TF 拆解计算如下，

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

词频计算涉及参数如下：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区
可以借助——analyze API 验证：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

分词后的 token 为：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区
• avgdl：等于所有文档的分词单元的总数 / 文档个数），计算结果为：16.807692。如何计算的呢？这里有同学会有疑惑，解读如下：

avgdl 计算步骤 1：所有文档的分词单元的总数。

如下所示：共 437个。文档数为 26 个。

为了方面查看，我把 26 个文档的全部 document 内容集合到一个文档里面，求得的分词后的结果值为 437 。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区
avgdl 计算步骤 2：avgdl = 437 / 26 = 16.807692。

最终 TF 词频求解结果为：0.740803524（该手算值精度和最终 Elasticsearch 返回结果精度值不完全一致，属于精度问题，不影响理解全局），其求解步骤如下：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

• N：待检索文档数，本示例为 26。

• n：包含分词单元 live 的文档数目，本示例为 3。

最终 IDF 求解结果为：2.043074，其计算公式如下：

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

如上计算对数，底数为 e。

干货 | 一步步拆解 Elasticsearch BM25 模型评分细节-鸿蒙开发者社区

一步步拆解，才能知道 BM25 模型的评分‘奥秘’所在，原来难懂的数学计算公式，也变得清晰明朗！

有了拆解，再来看其他的检索评分问题自然会“毫不费力"。

本文由英文博客：https://blog.mimacom.com/bm25-got/ 翻译而来，较原来博客内容，增加了计算的细节和个人解读，确保每一个计算细节小学生都能看懂。

欢迎就评分问题留言交流细节。

分类

标签

赞

收藏

回复

举报

回复

相关推荐

一步步教你用 WebVR 实现虚拟现实游戏

level • 1.2w浏览 • 0回复
华为：宁可向前一步死，绝不退后半步生

jowvid • 1.2w浏览 • 4回复
DevEco Studio 2.0 Beta2 邀你升级，开发HarmonyOS应用更进一步

少于5个字 • 1.1w浏览 • 1回复
鸿蒙应用开发入门（四）：进一步了解第一个例子里的细节

钟洪发老师 • 2.0w浏览 • 1回复
android教你怎么轻松实现手机推送功能，一步一步教你Mob+MobPush

hackernew • 1.1w浏览 • 0回复
魅族将支持华为HMS，离接入鸿蒙系统仅一步之遥。

宇穷 • 1.7w浏览 • 5回复
一步一步推导MySQL索引隐秘的底层数据结构

netcat20000 • 5997浏览 • 0回复
带你一步一步深入了解 MySQL Order By 文件排序

chujichenxuyuan • 9458浏览 • 0回复
一步步拆解解决 Elasticsearch 检索模板问题

robinent • 5892浏览 • 0回复
实战 | 一步步排查基于业务场景的Elasticsearch难题！

robinent • 5639浏览 • 0回复
一步一步推导MySQL索引隐秘的底层数据结构

netcat20000 • 4586浏览 • 0回复
小熊派对接华为云iot平台---手把手一步一步入门教程

辰羊 • 1.1w浏览 • 0回复
OLAP 数据平台 Druid 第一步，编写 Spec 配置

大家好我是佩奇 • 5508浏览 • 0回复
实战 | 一步步排查基于业务场景的Elasticsearch难题！

yyd2000 • 4310浏览 • 0回复
踏出第一步，感觉好多了

ly_liyi • 5092浏览 • 0回复
细节拉满，80 张图带你一步一步推演 slab 内存池的设计与实现

wg204wg • 3193浏览 • 0回复
摆脱“卡脖子”，华为走得更快一步

开源news • 3875浏览 • 0回复
（图片清晰版）细节拉满，80 张图带你一步一步推演 slab 内存池的设计与实现

荔枝岛岛主 • 3060浏览 • 0回复
#星计划#一步一步用鸿蒙开发一个登录页面

wx6192ef9117955 • 4358浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

视频

声望

粉丝

关注

最近发布

抓到Netty一个Bug，聊一下Netty是如何高效接收网络连接的（五） 2022-08-09 18:56:29发布
抓到Netty一个Bug，聊一下Netty是如何高效接收网络连接的（四） 2022-08-09 18:56:20发布

热门推荐

你觉得学习鸿蒙开发，以后好找工作，就业更有优势吗 14回复

OpenHarmony之跟随弹窗CustomDialog（详细代码实现+运行实例，Let Go） 10回复

#鸿蒙通关秘籍# 问答挑战赛（第三期）来啦！ 4回复

openHarmony设置初始启动页面，初始跳转页面（详细攻略+实现案例） 3回复

openHarmony半模态弹窗（半模态转场），介绍+示例代码展示，德芙丝滑般体验 4回复

相关问题

#鸿蒙通关秘籍#如何一步步推进多端适用待办软件的开发进度？ 1回答

从我们开发的java代码或者js代码一步步到 lite_os_a 内核上运行, 中间经历了哪些步骤? 2回答

helloworld工程已经到最后一步了，还是出现错误 3回答

HarmonyOS 多个输入框点击下一步键盘收起 1回答

自定义弹窗如何进一步封装 1回答

上一篇：干货 | ELK 日志实时分析实战

下一篇：全网首发 | Elasticsearch 认证（ECE）最新考试大纲解读

社区精华内容

目录

Copyright © 2005-2024 51CTO.COM 京ICP证060544版权所有未经许可请勿转载