案例分享|生产环境MQ集群一个非常诡异的消费延迟排查

WilliamGates

发布于 2023-2-14 11:52

浏览

0收藏

1、问题现象

某一天，项目组一个同事向我反馈，他们使用公司的数据同步产品将MySQL数据同步到MQ集群，然后使用消费者将数据再同步到ES，反馈数据同步延迟严重，但对应的消费组确没有积压，但最近最近几分钟的数据都没有同步过来。

那问题来了，消费端没有消费积压，而且通过查看数据同步平台该通过任务的同步状态，同样显示没有积压，那是为什么呢？

遇到这个问题，我们应该冷静下来，分析一下其大概的数据流向图，梳理后如下图所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

通过初步的诊断，从数据同步产品查看Binlog同步无延迟、MQ消费无积压，那为什么最终Es集群中的数据与MySQL有高达几分钟的延迟呢？

2、问题排查

根据上图几个关键组件数据同步延迟的检测，基本就排除了数据同步组件、MQ消费端本身消费的问题，问题的症结应该就是数据同步组件成功将数据写入到MQ集群，并且MQ集群返回了写入成功，但消费端并没有及时感知这个消息，也就是说消息虽然写入到MQ集群，但并没有达到消费队列。

因为如果数据同步组件如果没有写入成功，则MySQL Binlog日志就会出现延迟。但如果是MQ消费端的问题，则MQ平台也会显示消费组积压。

那为什么消息服务器写入成功，但消费组为什么感知不到呢？

首先为了验证上述结论是否正确，我还特意去看了一下主题的详细信息：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

查看主题的统计信息时发现当前系统的时间为19:01分，但主题最新的写入时间才是18:50，两者之间相差将近10分钟。

备注：上述界面是我们公司内部的消息运营管理平台，其实底层是调用了RocketMQ提供的topicStatus命令。

那这又是怎么造成的呢？

在这里我假设大家对RocketMQ底层的实现原理还不是特别熟悉，在这样的情况下，我觉得我们应该首先摸清楚topicStatus这个命令返回的minOffset、maxOffset以及lastUpdate这些是的具体获取逻辑，只有了解了这些，我们才能寻根究底，最终找到解决办法。

2.1 问题探究与原理剖析

在这个场景中，我们可以通过对topicStatus命令进行解析，从而探究其背后的实现原理。

当我们在命令行中输入 sh ./mqadmin topicStatus命令时，最终是调用defaultMQAdminExtImpl的examineTopicStats方法，最终在服务端的处理逻辑定义在AdminBrokerProcessor的getTopicStatsInfo方法中，核心代码如下：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

这里的实现要点：

通过MessageStore的getMinOffsetInQueue获取最小偏移量。
通过MessageStore的getMaxOffsetInQueue获取最大偏移量。
最新更新时间为最大偏移量减去一（表示最新一条消息）的存储时间

故要弄清队列最大、最小偏移量，关键是要看懂getMaxOffsetInQueue或者getMinOffsetInQueue的计算逻辑。

我也注意到分析源码虽然能直抵真相，但阅读起来太粗糙，所以我接下来的文章会尽量避免通篇的源码解读，取而代之的是只点出源码的入口处，其旁支细节将通过时序图获流程图，方便感兴趣的读者朋友去探究，我重点进行知识点的提炼，降低大家的学习成本。

如果大家想成体系的研究RocketMQ，想将消息中间件当成自己职业的闪光点，强烈建议购买我的两本关于RocketMQ的数据：《RocketMQ技术内幕》与《RocketMQ实战》。

MessageStore的getMaxOffsetInQueue的时序图如下所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

从上述时序图我们可以得知，调用DefaultMessageStore的getMaxOffsetInQueue方法，首先是根据主题、队列ID获取ConsumeQueue对象(在RocketMQ中一个主题的一个队列会对应一个ConsumeQueue，代表一个消费队列)，也就是这里获取的偏移量指的是消费者队列中的偏移量，而不是Commitlog文件的偏移量。

如果是找最大偏移量，就从该队列中的找到最后一个文件，去获取器最大的有效偏移量，也就是等于文件的起始偏移量(fileFromOffset)加上该文件当前最大可读的偏移量(readPosition)，故引起这张时序图一个非常关键的点，就是如何获取消费队列最大的可读偏移量，代码见MappedFile的getReadPosition：

public int getReadPosition(){
   return this.writeBuffer == null ? this.wrotePosition.get() : this.committedPosition.get();
}

由于ConsumeQueue并没有 transientStorePoolEnable 机制，数据直接写入到FlieChannel中，故这里的writeBuffer为空，取的是 wrotePosition的值，那ConsumeQueue文件的wrotePosition值在什么地方更新呢？

这个可以通过查看MappedFile中修改wrotePosition的方法appendMessage方法的调用，如下图所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

与ConsumeQueue对应的入口主要有两个：

ReputMessageService#doReput Commitlog异步转发线程,通过该线程异步构建Consumequeue、Index等文件
Commitlog#recoverAbnormally RocketMQ启动时根据Commitlog文件自动恢复Consumequeue文件

今天的主角当然不让非ReputMessageService莫属，这里先和大家普及一下一个最基本的知识：RocketMQ为了追求极致的顺序写，会将所有主题的消息顺序写入到一个文件(Commitlog文件)，然后异步转发到ConsumeQueue(消费队列文件)、IndexFile(索引文件)。

其转发服务就是通过ReputMessageService来实现的。

在深入介绍Commitlog文件的转发机制之前，我在这里先问大家一个问题：消息是写入到内存就转发给ConsumeQueue，亦或是刷写到磁盘后再转发呢？

为了方便大家对这个问题的探究，其代码的核心入口如下图所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

这里的关键实现要点如下：

判断是否转发关键条件在于 isCommitlogAvailable()方法返回true
根据转发位点reputFromOffset，从Commitlog文件中获取消息的物理偏移量、消息大小，tags等信息转发到消息消费队列、索引文件。

那isCommitlogAvailable的核心如下所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

故转发的关键就在于Commitlog的maxOffset的获取逻辑了，其实现时序图如下所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

这里核心重点是getReadPosition方法的实现，在RocketMQ写Commitlog文件，为了提升写入性能，引入了内存级读写分离机制，具体的实现原理如下图所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

具体在实现层面，就是如果transientStorePoolEnable=true，数据写入到堆外内存(writeBuffer)中，然后再提交到FileChannel,提交的位置(commitedPosition来表示)。

大家可以分别看一下改变wrotePosition与committedPposition的调用链。

其中wrotePosition的调用链如下所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

可以得知：wrotePosition是消息写入到内存(pagecache或者堆外内存)都会更新，但一旦开启了堆外内存机制，并不会取该值，所以我们可以理解为当消息写入到Pagecache中时，就可以被转发到消息消费队列。

紧接着我们再看一下committedPosition的调用链，如下所示：

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查-鸿蒙开发者社区

原来在RocketMQ中，如果开启了transientStorePoolEnable机制，消息先写入到堆外内存，然后就会向消息发送者返回发送成功，然后会有一个异步线程(CommitRealTimeService)定时将消息(默认200ms一次循环)提交到FileChannel，即更新committedPosition的值，消息就会转发给消费队列，从而消费者就可以进行消费。

2.2 问题原因提炼

经过上面的解析，问题应该有所眉目了。

由于我们公司为了提高RocketMQ的资源利用率，提升RocketMQ的写入性能，我们开启了transientStorePoolEnable机制，消息发送端写入到堆外内存，就会返回写入成功，这样MySQL Binlog数据同步并不会产生延迟，那这里的问题，无非就2个：

CommitRealTimeService 线程并没有及时将堆外内存中的数据提交到FileChannel
ReputMessageService线程没有及时将数据转发到消费队列

由于目前我暂时对底层存储写入的原理还认识不够深入，对相关系统采集指标不够敏感，当时主要分析了一下线程栈，发现ReputMessageService线程一直在工作，推测可能是转发不及时，这块我还需要更加深入去研究，如果大家对这块有其实理解，欢迎留言，我也会在后续工作中提升这块的技能，更加深入去理解底层的原理。

也就是目前知道了问题的表象原因，虽然底层原理还未通透，但目前足以指导我们更好的处理问题：将集群内消息写入大的主题，迁移到其他负载较低的集群，从而降低该集群的写入压力，当迁移了几个主题后，果不其然，消息到达消费队列接近实时，集群得以恢复。

温馨提示：中通内部的消息运维平台，可以随时将主题迁移到其他集群，而发送方、消费方应用无需重启应用即可感知。开源地址：https://github.com/ZTO-Express/zms 欢迎大家star

文章转载自公众号：中间件兴趣圈

分类

其他

标签

MQ集群

已于2023-2-14 11:52:17修改

51CTO

51CTO博客

51CTO学堂

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查

1、问题现象

2、问题排查

2.1 问题探究与原理剖析

2.2 问题原因提炼

目录

订阅鸿蒙技术特刊，精选内容抢先看