Elasticsearch 高基数聚合性能提升3倍,改动了什么?

r660926
发布于 2022-4-22 17:38
浏览
0收藏

1、上问题


这是来自球友实战问题。

 

大致需求介绍如下:

 

约 3600 万的数据,其中关键字段如下所示:

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区
用 cardinality 聚合统计,creator 的个数有约 1300 万。

 

问题:但在高基数(high cardinality)的情形下,性能不理想。

 

2、概念解读:什么是高基数?


为了更精确解读,这里直接拿:Elastic 官方博客只字不差的翻译。

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

terms 聚合的性能可能会受到所聚合字段的基数的极大影响。

 

基数(Cardinality)是指存储在特定字段中的值的唯一性。

 

 •  高基数:意味着一个字段包含很大比例的唯一值。


举例:电子邮件地址可能会有数千万+唯一值,属于高基数。(换了举例)

 

 •  低基数:意味着一个字段包含很多重复的值。


举例:因为世界上少于200个国家,国家名称就是低基数。

 

3、问题本质


经反复讨论,本质问题:高基数业务场景下,聚合慢,达不到预期。

 

我记得刚入职场,我向导师的导师(辈分应该是:师爷)当面请教一个问题,我说了很长,他实在听不下去了,就说了一句:“你的问题是什么?”,一语惊醒梦中人,我一直记到今天。

 

后面当我再向别人请教问题的时候,我都提前打好草稿、列好提纲,快速且直接说出重点、交流效率提升不少。

 

毫不夸张的说,能用简短的话描述清楚问题,问题就能基本解决了一大半。

 

4、怎么改进呢?


经反复讨论,结合球友之前的实践,思路如下:

 

 •  第一 :对于字段值,存储Hash值(写入时处理)。


 •  第二 :基于Hash 做聚合和统计分析操作。


5、Elasticsearch 有 Hash 值类型吗?


早期版本(7.X 之前)没有,但是 7.X 之后有。

 

如下借助 mapper-murmur3 插件实现:

 

插件地址:

 

https://www.elastic.co/guide/en/elasticsearch/plugins/7.2/mapper-murmur3.html

 

murmur3 需要着重介绍一下:

 

维基百科解读:MurmurHash 是一种非加密型哈希函数,适用于一般的哈希检索操作。

 

由 Austin Appleby 在 2008年发明, 并出现了多个变种,都已经发布到了公有领域(public domain)。

 

与其它流行的哈希函数相比,对于规律性较强的 key,MurmurHash的随机分布特征表现更良好。

 

Redis 在实现字典时用到了两种不同的哈希算法,MurmurHash 便是其中一种(另一种是djb),在 Redis 中应用十分广泛,包括数据库、集群、哈希键、阻塞操作等功能都用到了这个算法。

 

发明算法的作者被邀到 google 工作,该算法最新版本是 MurmurHash3 , 基于MurmurHash2改进了一些小瑕疵,使得速度更快,实现了 32 位(低延时)、128 位 HashKey,尤其对大块的数据,具有较高的平衡性与低碰撞率。

 

6、mapper-murmur3 插件实践一把


第一步:插件安装

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

第二步:导入Demo测试

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

聚合结果如下:

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

这时候,就能比较清晰的看出murmur3的作用:

 

 •  属于 Mapping的特定字段类型。


 •  可以和keyword类型组合当做复合类型使用。


 •  _source  不存储结果值。


 •  只在聚合后才能看到结果。


7、加了 mapper-murmur3 Hash 后效果如何呢?


球友实践反馈如下:

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

8、在相对低基数聚合性能如何呢?


实战一把。

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

8.1 模拟生成 1000W+数据。


文本文件输入了 39415 name信息(随机生成)。通过 python-dsl 随机生成写入 ES集群。

 

写入结果如下所示:

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

索引1:

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

索引2:

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

8.2 低基数有多低?
Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

 •  去重后的结果:39415。


 •  原始数据量:11509010。


 •  占比:0.342%


虽然高、低基数没有明确数据量多少的定义,但,这明显是低基数。

 

8.2 聚合结果对比

Elasticsearch 高基数聚合性能提升3倍,改动了什么?-鸿蒙开发者社区

如上所示 ,未加Hash的索引聚合要被加了Hash 的快一倍!

 

这也初步说明:Hash 在低基数聚合没有效果。


9、小结


以上验证和测试仅供参考,实际选型需要结合业务场景实际,进行充分验证后再做定夺。

 

类似高基数聚合业务场景,你实践中的优化点是什么?欢迎留言交流。

分类
收藏
回复
举报
回复
    相关推荐