说真的，这个主从延迟你还真处理不了

netcat20000

发布于 2022-4-29 14:41

浏览

0收藏

写在前面，感谢腾讯云数据库架构师团队祝海强、杜川、刘志祥在排障思路、源码分析上面提供的帮助，让我学习到了很多，不敢居功，特此鸣谢！

本文将以数据库实际使用中的某典型案例来分析造成主从延迟的原因。

主从延迟的原因

1、某用户在使用数据库过程中，出现主从延迟很大的情况，show slave status\G，已经差了60多个binlog了。

说真的，这个主从延迟你还真处理不了-鸿蒙开发者社区

2、观察发现，应该是卡在一个大事物上面（Retrieved_Gtid_Set一直在上升，但是Executed_Gtid_Set卡在一个点不动了），通过分析relay_log找到这个大事物：是对表A进行删除操作的一个事物。

Relay_Log_File: relay-bin.000010

Relay_Log_Pos: 951337711.
2.
3.

说真的，这个主从延迟你还真处理不了-鸿蒙开发者社区

看到这里，感觉又是一例在ROW模式下表没有主键，引起的主从延迟。看看表结构确认一下，发现这张表不小，字段有上百个，有主键，且是一张分区表，分区很多。这就有意思了！并不是我们碰到过多次的由于ROW模式下没有主键，DML引起的主从延迟（PS：为什么这种情况下会引起延迟？而是有主键，且走了二级索引，那为什么回放还会这么慢呢？）。

说真的，这个主从延迟你还真处理不了-鸿蒙开发者社区

后来了解到用户是在存储过程里面调用detele语句来进行归档数据清理，看了一下存储过程，现在的问题就可以简化为：在存储过程中调用delete语句，走了二级索引删除有主键的分区表，从机回放延迟。

说真的，这个主从延迟你还真处理不了-鸿蒙开发者社区

这个时候，我们需要拆解一下问题，控制好变量，一个一个的查：

1、直接执行delete，SQL会以statement的格式出现，且不会产生主从延迟。

说真的，这个主从延迟你还真处理不了-鸿蒙开发者社区

2、调用procedure，该delete语句在procedure中执行的时候会变成ROW格式，且会导致延迟。

OK，有以上两个测试，我们的问题可以聚焦为：

1、为什么同样delete语句，直接执行和在procedure里面执行记录的binlog格式不一样（ROW格式的binlog导致回放慢，全局设置在mixed模式下，这条SQL应该走的是statement格式，为什么在procedure里执行就变成了ROW格式，怎么样才能让这条SQL再procedure里执行变成statement记录到binlog里面）。

delete from xxxxx

where update_datetime < DATE_ADD(B_DATE,INTERVAL -1 day)

and DATE_FORMAT(update_datetime,'%i') not in ('00','05','10','15','20','25','30');1.
2.
3.
4.
5.

说真的，这个主从延迟你还真处理不了-鸿蒙开发者社区

通过show processlist，可以看到这条delete在procedure内部执行的时候，被MySQL自动加上了NAME_CONST函数，所以导致了以ROW模式记录binlog格式。那为什么在procedure中会被改写成这样的SQL呢？怎么样才能让这条SQL记录为statement的格式呢？

说真的，这个主从延迟你还真处理不了-鸿蒙开发者社区