老司机开车@如何拯救沦陷的MySQL内存少女

ywz888

发布于 2022-8-23 16:41

浏览

0收藏

● 1.问题开端
● 2.问题分析
● 3.原因及意见
1.问题开端
工程师反馈数据库服务器内存使用率高，并且之前曾触发告警，登录服务器使用top -u MySQL查看进程使用内存信息：

老司机开车@如何拯救沦陷的MySQL内存少女-鸿蒙开发者社区

发现MySQLd进程使用内存达到了61.5%，并有缓慢增长趋势。但是数据库的innodb_buffer_pool_size设置是6G,与9.2g还是有一些差距。

2.问题分析
●   1.查看MySQL进程相关信息，再次确认使用的物理内存大小通过cat /proc/21680/status查看MySQL进程id的实际内存使用情况，发现当前MySQL进程使用的物理内存为9.13g：
老司机开车@如何拯救沦陷的MySQL内存少女-鸿蒙开发者社区
●   2.确认数据库的全局buffer设置大小，这里以当前运行的配置为准，因为可能有在线修改过数据库配置，但未更新到配置文件中，所以要以数据库当前值为准，由此发现innodb_buffer_pool_size设置就是6g，innodb_log_buffer_size为64M,key_buffer_size为128M：
老司机开车@如何拯救沦陷的MySQL内存少女-鸿蒙开发者社区
●   3.查看数据库中performance_schema配置信息，分析当前为线程和用户分配的内存信息，查询sys下与memory相关的视图,查询sys库的相关表报错，经过沟通，由于sys库在MySQL导入备份时损坏，无法查询sys库下的相关视图:
●   memory_by_host_by_current_bytes
●   memory_by_thread_by_current_bytes
●   memory_by_user_by_current_bytes
●   memory_global_by_current_bytes
●   4.排查performance schema本身占用的内存大小,使用show engine performance_schema status;命令查看，发现performance schema本身占用了161M内存：
老司机开车@如何拯救沦陷的MySQL内存少女-鸿蒙开发者社区
●   5.排查MySQL为当前session会话分配的内存,查看session级别的buffer和cache占用内存大小,从这里我们可以看出，MySQL为每个session分配的buffer为12M，通过show processlist命令查看到当前有155个会话连接，那么MySQL为每个session一共分配了1860M。到这里发现innodb_buffer_pool_size设置为6g，performance schema使用了161M，session会话使用了1860M，总共7.9736g，距离9.2g还相差1.2g内存：
老司机开车@如何拯救沦陷的MySQL内存少女-鸿蒙开发者社区
●   6.排查当前临时表占用内存情况,发现tmp_table_size分配了128M，连续执行两次show global status like ‘Created_tmp%’命令查看当前是否有临时表产生，发现频繁使用了临时表，并且出现了因内存临时表不够而使用到磁盘临时表:
老司机开车@如何拯救沦陷的MySQL内存少女-鸿蒙开发者社区
●   7.排查频繁使用临时表情况,通过慢日志发现有大量的delete语句，并且执行时间最长的达51s，同时也有不走缓存的查全表的慢sql:

分析此慢SQL涉及的表是否有索引，此SQL语句是否走索引
老司机开车@如何拯救沦陷的MySQL内存少女-鸿蒙开发者社区
有上图可知，此表是有索引的，delete涉及的查询列也有一个联合索引，但在联合索引中created_at列并不是前缀，因此SQL语句并未用到此联合索引，所以会有大量的临时表，并消耗一定128M*使用次数内存，在使用完成后内存回收时可能会产生碎片
●   8.通过pmap -x <msyql pid>查看进程使用内存的详细信息,通过排查，发现有大量的anon（匿名内存块）并通过pstack进行分析，但因其他原因，此处暂时无法提供pmap信息截图:

#0  0x00007f322e3a1e9d in poll () from /lib64/libc.so.6
#0  0x00007f322f8f6945 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib64/libpthread.so.0
#0  0x00007f322f8f6945 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib64/libpthread.so.0
#0  0x00007f322f8f6945 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib64/libpthread.so.0
#0  0x00007f322f8f6945 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib64/libpthread.so.0
#0  0x00007f322e3a1e9d in poll () from /lib64/libc.so.6

●   从pstack堆栈信息发现MySQLd的现场有大量的状态是线程空闲状态，并且函数都在glibc上,所以从这里怀疑剩余使用的内存是否是因为glibc导致的内存碎片问题，查看MySQL相关的bug，确实存在相关的问题，但是这些问题不是MySQL本身的bug，因为对于MySQL来说，它只是调用系统函数去分配内存：
●   参考：https://bugs.MySQL.com/bug.php?id=94647
●   9.通过商讨处理方式，最后决定确认是否是此原因导致导致占用剩下的1.2g内存,然后使用gdb命令手动回收内存碎片，把内存还给系统:gdb --batch --pid 21680 --ex 'call malloc_trim(0)'命令执行完成之后发现MySQLd的内存使用率由61.5%降至58.5% ，从这里验证了因为glibc本身的缺陷导致内存没有释放完全。
3.原因及意见
本次内存缓慢增长属于正常现象，但存在因为一些慢sql频繁执行并因MySQL的内存分配使用了系统glibc，而glibc本身的内存分配算法存在缺陷，导致内存释放不完全。

处理意见：
●   1.增加物理内存。
●   2.修改MySQL的内存分配方式，不使用glibc，使用JEMALLOC内存管理，来规避此问题的再次发生。
●   3.数据库的session 参数设置的比较大，并且有些参数设置的不合理，比如read_rnd_buffer_size，建议修改数据库的参数：read_rnd_buffer_size = 2M
●   4.完善监控系统，监控目前不完善，没有对慢SQL进行监控。
●   5.制定相应的规范，加大测试审核要求。

本文转载公众号GreatSQL社区

分类

数据库

标签

Mysql

已于2022-8-23 16:41:01修改