一、现象
凌晨对线上一张表添加索引,表数据量太大(1亿+数据,数据量50G以上),造成主从延迟几个小时,各个依赖从库的系统无法查询数据,最终影响业务。
现在就梳理下主从延迟的原理。
二、原理
根据 MySQL 官方文档 MySQL Replication Implementation Details 中的描述,MySQL 主从复制依赖于三个线程:master
一个线程(Binlog dump thread
),slave
两个线程(I/O thread
和SQL thread
)。主从复制流程如下图:
master 服务器和 slave 服务器连接时,创建Binlog dump thread
以发送bin log
数据:
Binlog dump thread
对应一个 slave 服务器; Binlog dump thread
从bin log
获取数据时会加锁,获取到数据后,立即释放锁。 当 slave 服务器收到 START_SLAVE 命令时,会创建I/O thread
和SQL thread
:
I/O thread
以拉的方式,从 master 读取事件,并存储到 slave 服务器的relay log
中; SQL thread
从relay log
中读取事件并执行; slave
可以按照自己的节奏读取和更新数据,也可以随意操作复制进程(启动和停止)。 注: START_SLAVE
命令成功启动线程后,如果后面I/O thread
或SQL thread
因为某些原因停止,则不会有任何的警告,业务方无法感知。可以通过查看 slave 的 error 日志,或者通过 SHOW SLAVE STATUS 查看 slave 上的线程状态。
通过 SHOW PROCESSLIST 可查看线程状态:
Binlog dump thread:
mysql> SHOW PROCESSLISTG*************************** 1. row *************************** Id: 2 User: root Host: localhost:32931 db: NULLCommand: Binlog Dump Time: 94 State: Has sent all binlog to slave; waiting for binlog to be updated Info: NULL
I/O thread 和 SQL thread:
mysql> SHOW PROCESSLISTG*************************** 1. row *************************** Id: 10 User: system user Host: db: NULLCommand: Connect Time: 11 State: Waiting for master to send event Info: NULL *************************** 2. row *************************** Id: 11 User: system user Host: db: NULLCommand: Connect Time: 11 State: Has read all relay log; waiting for the slave I/O thread to update it Info: NULL
三、分析
根据上面的原理,由于slave
是单线程(I/O thread
)读取数据,单线程(SQL thread
)更新数据,而master
是多线程写入,那么只要master
写入的频率大于slave
读取更新的频率,就有可能出现主从延迟的情况,如:
新闻热点
疑难解答