原标题:MySQL运维经验

本文内容

  • 为什么要迁移
  • MySQL 迁移方案概览
  • MySQL 迁移实战
  • 注意事项
  • 技巧
  • 总结

MySQL运维实践

永利博 1

一、为什么要迁移


MySQL 迁移是 DBA
日常维护中的一个工作。迁移,是把实际存在的物体挪走,保证该物体的完整性以及延续性。

生产环境中,有以下情况需要做迁移:

  • 1、磁盘空间不够。比如一些老项目,选用的机型并不一定适用于数据库。随着时间的推移,硬盘很有可能出现短缺;
  • 2、业务出现瓶颈。比如项目中采用单机承担所有的读写业务,业务压力增大,不堪重负。如果
    IO 压力在可接受的范围,会采用读写分离方案;
  • 3、机器出现瓶颈。机器出现瓶颈主要在磁盘 IO
    能力、内存、CPU,此时除了针对瓶颈做一些优化以外,选择迁移是不错的方案;
  • 4、项目改造。某些项目的数据库存在跨机房的情况,可能会在不同机房中增加节点,或者把机器从一个机房迁移到另一个机房。再比如,不同业务共用同一台服务器,为了缓解服务器压力以及方便维护,也会做迁移。

一句话,迁移工作是不得已而为之。实施迁移工作,目的是让业务平稳持续地运行。

5.1-MySQL日志系统

1. 概要

二、MySQL 迁移方案概览


MySQL
迁移就是在保证业务平稳持续地运行的前提下做备份恢复。那问题就在怎么快速安全地进行备份恢复。

首先,备份。针对每个主节点的从节点或者备节点,都有备份。这个备份可能是全备,可能是增量备份。在线备份的方法,可能使用
mysqldump(MySQL
用于转存储数据库的实用程序。它主要产生一个SQL脚本,其中包含从头重新创建数据库所必需的命令),xtrabackup(是一个对
InnoDB 做数据备份的工具,支持在线热备份,是商业备份工具 InnoDB Hotbackup
的一个很好的替代品),mydumper(是一个针对MySQL和Drizzle的高性能多线程备份和恢复工具)等。

  • 针对小容量(10GB 以下)的备份,可以使用
    mysqldump。但对大容量数据库(GB 或者 TB 级别),mysqldump
    就不合适,会产生锁,耗时太长。
  • 此时,可以选择 xtrabackup
    或者直接拷贝数据目录。直接拷贝数据目录方法,不同机器传输可以使用
    rsync,耗时跟网络相关。使用
    xtrabackup,耗时主要在备份和网络传输。如果有全备或者指定库的备份文件,这是获取备份的最好方法。如果备库可以容许停止服务,直接拷贝数据目录是最快的方法。如果备库不允许停止服务,我们可以使用
    xtrabackup(不会锁定 InnoDB 表),这是完成备份的最佳折中办法。

其次,恢复。针对小容量(10GB
以下)数据库的备份文件,我们可以直接导入。针对大容量数据库(GB 或者 TB
级别)的恢复,拿到备份文件到本机以后,恢复不算困难。具体的恢复方法可以参考第三节。

什么是日志

  • 日志(log)是一种顺序记录事件流水的文件
  • 记录计算机程序运行过程中发生了什么
  • 用途多样
  • 帮助分析程序问题
  • 分析服务请求的特征、流量等
  • 判断工作是否成功执行
  • ……

每台机器都使用多实例的模型。 每个机器放多个实例,每个实例放多个DB。

三、MySQL 迁移实战


上面试为什么要做迁移,以及迁移需要做什么,接下来是在生产环境如何操作。不同的应用场景,有不同的解决方案。

假设有如下约定:

  • 1、为了保护隐私,本文中的服务器 IP 等信息经过处理;
  • 2、如果服务器在同一机房,用服务器 IP 的 D 段代替服务器,具体的 IP
    请参考架构图;
  • 3、如果服务器在不同机房,用服务器 IP 的 C 段 和 D
    段代替服务器,具体的 IP 请参考架构图;
  • 4、每个场景给出方法,但不会详细地给出每一步执行什么命令,因为一方面,这会导致文章过长;另一方面,我认为只要知道方法,具体的做法就会迎面扑来的,只取决于掌握知识的程度和获取信息的能力;
  • 5、实战过程中的注意事项请参考第四节。

MySQL日志的分类

  • 服务器日志
    • 记录进程启动运行过程中的特殊事件,帮助分析MySQL服务遇到的问题
    • 根据需求抓取特定的SQL语句,追踪性能可能存在的问题的业务SQL
  • 事务日志
    • 记录应用程序对数据的所有更改
    • 可用于数据恢复
    • 可用于实例间数据同步
分类 日志名称
服务器日志 服务错误日志
服务器日志 慢查询日志
服务器日志 综合查询日志
事务日志 存储引擎事务日志
事务日志 二进制日志

多实例之间没有进行资源隔离,这么做是让每个实例都能发挥最大性能。

3.1,场景一:主一从结构迁移从库

我们从简单的结构入手。A 项目,原本是一主一从结构。101 是主节点,102
是从节点。因业务需要,把 102 从节点迁移至 103,架构图如图 1。102
从节点的数据容量过大,不能使用 mysqldump
的形式备份。和研发沟通后,形成一致的方案。

下面是 A 项目 MySQL 架构图。

永利博 2

图 1 主一从结构迁移从库架构图

具体做法是这样:

1、研发将 102 的读业务切到主库;

2、确认 102 MySQL 状态(主要看 PROCESS
LIST),观察机器流量,确认无误后,停止 102 从节点的服务;

3、103 新建 MySQL 实例,建成以后,停止 MySQL 服务,并且将整个数据目录 mv
到其他地方做备份;

4、将 102 的整个 mysql 数据目录使用 rsync 拷贝到 103;

5、拷贝的同时,在 101 授权,使 103 有拉取 binlog 的权限(REPLICATION
SLAVE, REPLICATION CLIENT);

6、待拷贝完成,修改 103 配置文件中的 server_id,注意不要和 102
上的一致;

7、在 103 启动 MySQL
实例,注意配置文件中的数据文件路径以及数据目录的权限;

8、进入 103 MySQL 实例,使用 SHOW SLAVE STATUS 检查从库状态,可以看到
Seconds_Behind_Master 在递减;

9、Seconds_Behind_Master 变为 0 后,表示同步完成,此时可以用
pt-table-checksum 检查 101 和 103
的数据一致,但比较耗时,而且对主节点有影响,可以和开发一起进行数据一致性的验证;

10、和研发沟通,除了做数据一致性验证外,还需要验证账号权限,以防业务迁回后访问出错;

11、做完上述步骤,可以和研发协调,把 101 的部分读业务切到
103,观察业务状态;

12、如果业务没有问题,证明迁移成功。

服务错误日志

  • 记录实例启动运行过程中重要消息
  • 配置参数 log_error = /data/mysql_data/node-1/mysql.log
  • 内容并非全是错误消息
  • 如果mysqld进程无法正常启动首先查看错误日志

目前大部分核心业务已切换成MyRocks引擎,在机器硬件配置不变的情况,约可节省一半机器。

3.2,场景二:主一从结构迁移指定库

我们知道一主一从只迁移从库怎么做之后,接下来看看怎样同时迁移主从节点。因不同业务同时访问同一服务器,导致单个库压力过大,还不便管理。于是,打算将主节点
101 和从节点 102 同时迁移至新的机器 103 和 104,103 充当主节点,104
充当从节点,架构图如图二。此次迁移只需要迁移指定库,这些库容量不是太大,并且可以保证数据不是实时的。

下图是 B 项目 MySQL 架构图。

 永利博 3

图 2 主一从结构迁移指定库架构图

具体的做法如下:

1、103 和 104 新建实例,搭建主从关系,此时的主节点和从节点处于空载;

2、102
导出数据,正确的做法是配置定时任务,在业务低峰做导出操作,此处选择的是
mysqldump;

3、102 收集指定库需要的账号以及权限;

4、102 导出数据完毕,使用 rsync 传输到 103,必要时做压缩操作;

5、103 导入数据,此时数据会自动同步到 104,监控服务器状态以及 MySQL
状态;

6、103 导入完成,104 同步完成,103 根据 102
收集的账号授权,完成后,通知研发检查数据以及账户权限;

7、上述完成后,可研发协作,将 101 和 102 的业务迁移到 103 和
104,观察业务状态;

8、如果业务没有问题,证明迁移成功。

慢查询日志

  • 记录执行时间超过一定阈值的SQL语句
  • 配置参数

slow_query_log = 1
slow_query_log_file = /data/mysql_data/node-1/mysql-slow.log
long_query_time = 5
  • 用于分析系统中可能存在性能问题的SQL

放在MyRocks上的核心业务主要有:Feed、Post、社交图谱等读写混合业务。

3.3,场景三:主一从结构双边迁移指定库

接下来看看一主一从结构双边迁移指定库怎么做。同样是因为业务共用,导致服务器压力大,管理混乱。于是,打算将主节点
101 和从节点 102 同时迁移至新的机器 103、104、105、106,103 充当 104
的主节点,104 充当 103 的从节点,105 充当 106 的主节点,106 充当 105
的从节点,架构图如图三。此次迁移只需要迁移指定库,这些库容量不是太大,并且可以保证数据不是实时的。我们可以看到,此次迁移和场景二很类似,无非做了两次迁移。

下图是 C 项目 MySQL 架构图。

永利博 4

图 3 主一从结构双边迁移指定库架构图

具体的做法如下:

1、103 和 104 新建实例,搭建主从关系,此时的主节点和从节点处于空载;

2、102 导出 103
需要的指定库数据,正确的做法是配置定时任务,在业务低峰做导出操作,此处选择的是
mysqldump;

3、102 收集 103 需要的指定库需要的账号以及权限;

4、102 导出103 需要的指定库数据完毕,使用 rsync 传输到
103,必要时做压缩操作;

5、103 导入数据,此时数据会自动同步到 104,监控服务器状态以及 MySQL
状态;

6、103 导入完成,104 同步完成,103 根据 102
收集的账号授权,完成后,通知研发检查数据以及账户权限;

7、上述完成后,和研发协作,将 101 和 102 的业务迁移到 103 和
104,观察业务状态;

8、105 和 106 新建实例,搭建主从关系,此时的主节点和从节点处于空载;

9、102 导出 105
需要的指定库数据,正确的做法是配置定时任务,在业务低峰做导出操作,此处选择的是
mysqldump;

10、102 收集 105 需要的指定库需要的账号以及权限;

11、102 导出 105 需要的指定库数据完毕,使用 rsync 传输到
105,必要时做压缩操作;

12、105 导入数据,此时数据会自动同步到 106,监控服务器状态以及 MySQL
状态;

13、105 导入完成,106 同步完成,105 根据 102
收集的账号授权,完成后,通知研发检查数据以及账户权限;

14、上述完成后,和研发协作,将 101 和 102 的业务迁移到 105 和
106,观察业务状态;

15、如果所有业务没有问题,证明迁移成功。

综合查询日志

  • 如果开启将会记录系统中所有SQL语句
  • 配置参数

general_log = 1
general_log_file = /data/mysql_data/node-1/mysql-slow.log
  • 偶尔用于帮助分析系统问题,对性能有影响

MyRocks项目地址:

3.4,场景四:主一从结构完整迁移主从

接下来看看一主一从结构完整迁移主从怎么做。和场景二类似,不过此处是迁移所有库。因
101 主节点 IO 出现瓶颈,打算将主节点 101 和从节点 102 同时迁移至新的机器
103 和 104,103 充当主节点,104
充当从节点。迁移完成后,以前的主节点和从节点废弃,架构图如图四。此次迁移是全库迁移,容量大,并且需要保证实时。这次的迁移比较特殊,因为采取的策略是先替换新的从库,再替换新的主库。所以做法稍微复杂些。

下面是 D 项目 MySQL 架构图。

永利博 5

图 4 主一从结构完整迁移主从架构图

具体的做法是这样:

1、研发将 102 的读业务切到主库;

2、确认 102 MySQL 状态(主要看 PROCESS LIST,MASTER
STATUS),观察机器流量,确认无误后,停止 102 从节点的服务;

3、104 新建 MySQL 实例,建成以后,停止 MySQL 服务,并且将整个数据目录 mv
到其他地方做备份,注意,此处操作的是 104,也就是未来的从库;

4、将 102 的整个 mysql 数据目录使用 rsync 拷贝到 104;

5、拷贝的同时,在 101 授权,使 104 有拉取 binlog 的权限(REPLICATION
SLAVE, REPLICATION CLIENT);

6、待拷贝完成,修改 104 配置文件中的 server_id,注意不要和 102
上的一致;

7、在 104 启动 MySQL
实例,注意配置文件中的数据文件路径以及数据目录的权限;

8、进入 104 MySQL 实例,使用 SHOW SLAVE STATUS 检查从库状态,可以看到
Seconds_Behind_Master 在递减;

9、Seconds_Behind_Master 变为 0 后,表示同步完成,此时可以用
pt-table-checksum 检查 101 和 104
的数据一致,但比较耗时,而且对主节点有影响,可以和开发一起进行数据一致性的验证;

10、除了做数据一致性验证外,还需要验证账号权限,以防业务迁走后访问出错;

11、和研发协作,将之前 102 从节点的读业务切到 104;

12、利用 102 的数据,将 103 变为 101 的从节点,方法同上;

13、接下来到了关键的地方了,我们需要把 104 变成 103 的从库;

– 104 STOP SLAVE;

– 103 STOP SLAVE IO_THREAD;

  • 103 STOP SLAVE SQL_THREAD,记住 MASTER_LOG_FILE 和
    MASTER_LOG_POS;
  • 104 START SLAVE UNTIL到上述 MASTER_LOG_FILE 和 MASTER_LOG_POS;
  • 104 再次 STOP SLAVE;
  • 104 RESET SLAVE ALL 清除从库配置信息;
  • 103 SHOW MASTER STATUS,记住 MASTER_LOG_FILE 和 MASTER_LOG_POS;
  • 103 授权给 104 访问 binlog 的权限;
  • 104 CHANGE MASTER TO 103;
  • 104 重启 MySQL,因为 RESET SLAVE ALL 后,查看 SLAVE
    STATUS,Master_Server_Id 仍然为 101,而不是 103;
  • 104 MySQL 重启后,SLAVE 回自动重启,此时查看 IO_THREAD 和 SQL_THREAD
    是否为 YES;
  • 103 START SLAVE;
  • 此时查看 103 和 104 的状态,可以发现,以前 104 是 101
    的从节点,如今变成 103 的从节点了。

14、业务迁移之前,断掉 103 和 101 的同步关系;

15、做完上述步骤,可以和研发协调,把 101 的读写业务切回 102,读业务切到
104。需要注意的是,此时 101 和 103 均可以写,需要保证 101
在没有写入的情况下切到 103,可以使用 FLUSH TABLES WITH READ LOCK 锁住
101,然后业务切到 103。注意,一定要业务低峰执行,切记;

16、切换完成后,观察业务状态;

17、如果业务没有问题,证明迁移成功。

查询日志的输出与文件切换

  • 日志输出参数

log_output={file|table|none}

  • 如果日志文件过大,可以定期截断并切换新文件

flush log;

另外,MariaDB 10.2版本也即将整合MyRocks引擎。

3.5,场景五:双主结构跨机房迁移

接下来看看双主结构跨机房迁移怎么做。某项目出于容灾考虑,使用了跨机房,采用了双主结构,双边均可以写。因为磁盘空间问题,需要对
A 地的机器进行替换。打算将主节点 1.101 和从节点 1.102 同时迁移至新的机器
1.103 和 1.104,1.103 充当主节点,1.104 充当从节点。B 地的 2.101 和
2.102 保持不变,但迁移完成后,1.103 和 2.101
互为双主。架构图如图五。因为是双主结构,两边同时写,如果要替换主节点,单方必须有节点停止服务。

下图是 E 项目 MySQL 迁移架构图。

永利博 6

图 5 双主结构跨机房迁移架构图

具体的做法如下:

1、1.103 和 1.104 新建实例,搭建主从关系,此时的主节点和从节点处于空载;

2、确认 1.102 MySQL 状态(主要看 PROCESS LIST),注意观察 MASTER STATUS
不再变化。观察机器流量,确认无误后,停止 1.102 从节点的服务;

3、1.103 新建 MySQL 实例,建成以后,停止 MySQL 服务,并且将整个数据目录
mv 到其他地方做备份;

4、将 1.102 的整个 mysql 数据目录使用 rsync 拷贝到 1.103;

5、拷贝的同时,在 1.101 授权,使 1.103 有拉取 binlog 的权限(REPLICATION
SLAVE, REPLICATION CLIENT);

6、待拷贝完成,修改 1.103 配置文件中的 server_id,注意不要和 1.102
上的一致;

7、在 1.103 启动 MySQL
实例,注意配置文件中的数据文件路径以及数据目录的权限;

8、进入 1.103 MySQL 实例,使用 SHOW SLAVE STATUS 检查从库状态,可以看到
Seconds_Behind_Master 在递减;

9、Seconds_Behind_Master 变为 0 后,表示同步完成,此时可以用
pt-table-checksum 检查 1.101 和 1.103
的数据一致,但比较耗时,而且对主节点有影响,可以和开发一起进行数据一致性的验证;

10、我们使用相同的办法,使 1.104 变成 1.103 的从库;

11、和研发沟通,除了做数据一致性验证外,还需要验证账号权限,以防业务迁走后访问出错;

12、此时,我们要做的就是将 1.103 变成 2.101
的从库,具体的做法可以参考场景四;

13、需要注意的是,1.103 的单双号配置需要和 1.101 一致;

14、做完上述步骤,可以和研发协调,把 1.101 的读写业务切到 1.103,把
1.102 的读业务切到 1.104。观察业务状态;

15、如果业务没有问题,证明迁移成功。

存储引擎事务日志

  • 部分存储引擎拥有重做日志(redo log)
  • 如InnoDB, TokuDB等WAL(Write Ahead Log)机制存储引擎
  • 日志随着事务commit优先持久化,确保异常恢复不丢数据
  • 日志顺序写性能较好

2. 高可用机制

3.6,场景六:多实例跨机房迁移

接下来我们看看多实例跨机房迁移证明做。每台机器的实例关系,我们可以参考图六。此次迁移的目的是为了做数据修复。在
2.117 上建立 7938 和 7939
实例,替换之前数据异常的实例。因为业务的原因,某些库只在 A
地写,某些库只在 B 地写,所以存在同步过滤的情况。

下图是 F 项目 MySQL 架构图。

永利博 7

图 6 多实例跨机房迁移架构图

具体的做法如下:

1、1.113 针对 7936 实例使用 innobackupex
做数据备份,注意需要指定数据库,并且加上 slave-info 参数;

2、备份完成后,将压缩文件拷贝到 2.117;

3、2.117 创建数据目录以及配置文件涉及的相关目录;

4、2.117 使用 innobackupex 恢复日志;

5、2.117 使用 innobackupex 拷贝数据;

6、2.117
修改配置文件,注意如下参数:replicate-ignore-db、innodb_file_per_table
= 1、read_only = 1、 server_id;

7、2.117 更改数据目录权限;

8、1.112 授权,使 2.117 有拉取 binlog 的权限(REPLICATION SLAVE,
REPLICATION CLIENT);

9、2.117 CHANGE MASTE TO 1.112,LOG FILE 和 LOG POS 参考
xtrabackup_slave_info;

10、2.117 START SLAVE,查看从库状态;

11、2.117 上建立 7939 的方法类似,不过配置文件需要指定
replicate-wild-do-table;

12、和开发一起进行数据一致性的验证和验证账号权限,以防业务迁走后访问出错;

13、做完上述步骤,可以和研发协调,把相应业务迁移到 2.117 的 7938 实例和
7939 实例。观察业务状态;

14、如果业务没有问题,证明迁移成功。

InnoDB事务日志重用机制

  • InnoDB事务日志采用两组文件交替重用

采用基于GTID的一主多从结构,外加一个基于lossless
semi-sync机制的mysqlbinlog实现的binlog server(可以理解为MySQL 5.7的loss
zero replication)。

四、注意事项


介绍完不同场景的迁移方案,需要注意如下几点:

1、数据库迁移,如果涉及事件,记住主节点打开 event_scheduler 参数;

2、不管什么场景下的迁移,都要随时关注服务器状态,比如磁盘空间,网络抖动;另外,对业务的持续监控也是必不可少的;

3、CHANGE MASTER TO 的 LOG FILE 和 LOG POS
切记不要找错,如果指定错了,带来的后果就是数据不一致;

4、执行脚本不要在 $HOME 目录,记住在数据目录;

5、迁移工作可以使用脚本做到自动化,但不要弄巧成拙,任何脚本都要经过测试;

6、每执行一条命令都要三思和后行,每个命令的参数含义都要搞明白;

7、多实例环境下,关闭 MySQL 采用 mysqladmin
的形式,不要把正在使用的实例关闭了;

8、从库记得把 read_only = 1 加上,这会避免很多问题;

9、每台机器的 server_id 必须保证不一致,否则会出现同步异常的情况;

10、正确配置 replicate-ignore-db 和 replicate-wild-do-table;

11、新建的实例记得把 innodb_file_per_table 设置为
1,上述中的部分场景,因为之前的实例此参数为 0,导致 ibdata1
过大,备份和传输都消耗了很多时间;

12、使用 gzip 压缩数据时,注意压缩完成后,gzip 会把源文件删除。

13、所有的操作务必在从节点或者备节点操作,如果在主节点操作,主节点很可能会宕机;

14、xtrabackup 备份不会锁定 InnoDB 表,但会锁定 MyISAM
表。所以,操作之前记得检查下当前数据库的表是否有使用 MyISAM
存储引擎的,如果有,要么单独处理,要么更改表的 Engine;

二进制日志binlog

  • binlog (binary log)
  • 记录数据引起数据变化的SQL语句或数据逻辑变化的内容
  • MySQL服务层记录,无关存储引擎
  • binlog的主要作用:
    • 基于备份恢复数据
    • 数据库主从同步
    • 挖掘分析SQL语句

基于多数派实现自动选主。

五、技巧


在 MySQL 迁移实战中,有如下技巧可以使用:

1、任何迁移 LOG FILE 以 relay_master_log_file(正在同步 master 上的
binlog 日志名)为准,LOG POS 以 exec_master_log_pos(正在同步当前
binlog 日志的 POS 点)为准;

2、使用 rsync 拷贝数据,可以结合 expect、nohup 使用,绝对是绝妙组合;

3、在使用 innobackupex 备份数据的同时可以使用 gzip 进行压缩;

4、在使用 innobackupex 备份数据,可以加上 –slave-info
参数,方便做从库;

5、在使用 innobackupex 备份数据,可以加上 –throttle 参数,限制
IO,减少对业务的影响。还可以加上 –parallel=n
参数,加快备份,但需要注意的是,使用 tar 流压缩,–parallel 参数无效。

6、做数据的备份与恢复,可以把待办事项列个清单,画个流程,然后把需要执行的命令提前准备好;

7、本地快速拷贝文件夹,有个不错的方法,使用 rsync,加上如下参数:-avhW
–no-compress –progress;

8、 不同分区之间快速拷贝数据,可以使用
dd。或者用一个更靠谱的方法,备份到硬盘,然后放到服务器上。异地还有更绝的,直接快递硬盘。

开启binlog

  • 主要参数

log_bin = c:/tmp/mylog/mysql-bin
sql_log_bin = 1
sync_binlog = 1
  • 查看binlog

show binary logs;

基于配置中心实现切换,未使用VIP。

六、总结


本文从为什么要迁移讲起,接下来讲了迁移方案,然后讲解了不同场景下的迁移实战,最后给出了注意事项以及实战技巧。归纳起来,也就以下几点:

第一、迁移的目的是让业务平稳持续地运行;

第二、迁移的核心是怎么延续主从同步,我们需要在不同服务器和不同业务之间找到方案;

第三、业务切换需要考虑不同 MySQL
服务器之间的权限问题;需要考虑不同机器读写分离的顺序以及主从关系;需要考虑跨机房调用对业务的影响。

读者在实施迁移的过程中,可以参考此文提供的思路。但怎样保证每个操作正确无误地运行,还需要三思而后行。

说句题外话,「证明自己有能力最重要的一点就是让一切都在自己的掌控之中。

binlog管理

  • 主要参数

max_binlog_size = 100MB
expire_logs_days = 7
  • binlog始终生成新文件,不会重用

  • 手工清理binlog

purge binary logs to 'mysql-bin.000009';
purge binary logs before '2016-4-2 21:00:40'

在认为semi-sync复制可保证主从数据一致性的假设前提下,发生故障切换时,利用上述的binlog
server中的日志进行补全后再选新主、切换。

查看binlog内容

  • 日志

show binlog events in 'mysql-bin.000011';
show binlog events in 'mysql-bin.000011' from 60 limit 3;
  • mysqlbinlog工具

mysqlbinlog c:/tmp/mylog/mysql-bin.000001
--start-datetime | --stop-datetime
--start-position | --stop-position

若个别情况下由于特殊原因,出现从库全部挂掉的情况,会将全部请求切到主库,由它扛起所有的业务服务压力。

binlog格式

  • 主要参数

binlog_format = {ROW|STATEMENT|MIXED}

  • 查看row模式的binlog内容

mysqlbinlog --base64-output=decode-rows -v c:/tmp/mylpg/mysql-bin.000001

某个从库挂掉时,可以动态摘除。

5.2-MySQL数据备份

3. 备份机制

基本指数 – 备份用途

  • 数据备灾
    • 应对硬件故障数据丢失
    • 应对人为或程序bug导致数据删除
  • 制作镜像库以供服务
    • 需要将数据迁移、统计分析等用处
    • 需要为线上数据建立一个镜像

所有的备份都是基于mysqldump实现,之所以采用mysqldump逻辑备份好处有:

基本知识 – 备份内容

  • 数据
    • 数据文件或文本格式数据
  • 操作日志(binlog)
    • 数据库变更日志
  • 无需备份索引,只备份数据;
  • 备份文件压缩比高,更节省磁盘空间;
  • 改进了mysqldump,备份过程中还进行额外压缩;

基本知识 – 冷备份与热备份

  • 冷备份
    • 关闭数据库服务,完整拷贝数据文件
  • 热备份
    • 在不影响数据库读写服务的情况下备份数据库

上面提到,因为采用多实例、多DB结构,备份时可以多DB并行备份。当然了,也会控制并行备份的数量,避免影响在线业务性能。

基本知识 – 物理备份与逻辑备份

  • 物理备份
    • 以数据页的形式拷贝数据
  • 逻辑备份
    • 导出为裸数据或者SQL(insert)语句

备份放在集中存储(HDFS)上, 据说已达EB级别容量。

基本知识 – 本地备份与远程备份

  • 本地备份
    • 在数据库服务器本地进行备份
  • 远程备份
    • 远程连接数据库进行备份

关于备份的作用定位:

基本知识 – 全量备份与增量备份

  • 全量备份
    • 备份完整的数据库
  • 增量备份
    • 只备份上一次备份以来发生修改的数据
  • 供数据分析环境拉数据
  • 供灾难恢复

基本知识 – 备份周期

考虑因素:

  • 数据库大小(决定备份时间)
  • 恢复速度要求(快速or慢速)
  • 备份方式(全量or增量)

4. 如何快速部署从库

常用工具及用法

  • mysqldump – 逻辑备份,热备
  • xtrabackup – 物理备份, 热备
  • Lvm/zfs snapshot – 物理备份
  • mydumper – 逻辑备份,热备
  • cp – 物理备份,冷备

可使用xtrabackup在现有存活的SLAVE实例上备份,也可在主库上发起备份,再利用WDT(或者是BT)协议传输到异地,用于拉起从库。

常用工具及用法 – mysqldump

MySQL官方自带的命令行工具

主要示例:

  • 演示使用mysqldump备份表、库、实例

# 备份所有数据库
mysqldump -uroot -p123456 --socket=/var/run/mysqld/mysqld.sock --all-databases > /dbbackup/all_db.sql
# 备份指定的数据库
mysqldump -uroot -p123456 --socket=/var/run/mysqld/mysqld.sock --databases db2 > /dbbackup/db2.sql
# 备份单个表
mysqldump -uroot -p123456 --socket=/var/run/mysqld/mysqld.sock db2 t1 >/dbbackup/db2_t1.sql
# 还原表
mysql > source /dbbackup/db2_t1.sql
  • 演示使用mysqldump制作一致性备份

mysqldump --single-transaction -uroot -p123456 --all-databases > /dbbackup/add_db_2.sql
  • 演示使用mysqldump远程备份一个数据库

mysqldump -utest -ptest -h192.168.0.68 -P3306 --all-databases > /dbbackup/remote_bakall.sql
  • 演示使用mysqldump导出数据为csv格式

mysqldump -uroot -p123456 --single-transaction --fields-terminated-by=, db1 -T /tmp

关于WDT项目:

常用工具及用法 – xtrabackup

特点:

  • 开源,在线备份InnoDB表
  • 支持限速备份,避免对业务造成影响
  • 支持流备
  • 支持增量备份
  • 支持备份文件压缩与加密
  • 支持并行备份与恢复,速度快

5. 高度自动化

xtrabackup备份原理

  • 基于InnoDB的crash-recovery功能
  • 备份期间允许用户读写,写请求产生redo日志
  • 从磁盘上拷贝数据文件
  • 从InnoDB redo log file实时拷贝走备份期间产生的所有redo日志
  • 恢复的时候 数据文件 + redo日志 = 一致性数据

面对大规模的数据库实例,手工处理完全不现实。目前在facebook主要是利用Python开发内部DB运维平台,所以Python技能方面要求比较高。

实用脚本innobackupex

  • 开源Perl脚本,封装调用xtrabackup及一系列相关工具与OS操作,最终完成备份过程
  • 支持备份InnoDB和其他引擎的表
  • 备份一致性保证

采用他们自已的osc工具执行Online
DDL(也是本次DTCC大会上lulu的分享主题),它最早用PHP开发,虽早已开源,但实在不好用,所以几乎只在内部使用。这个工具不同于pt-osc,相对来说更有优势,比如可以避免使用pt-osc最常遇到的主从数据延迟问题。

innobackupex备份基本流程

start xtrabackup_log -> copy .ibd; ibdata1 -> FLUSH TABLE WITH
READ LOCK -> copy .FRM; MYD; MYI; misc files -> Get binary log
position -> UNLOCK TABLES -> stop and copy xtrabackup_log

项目地址:

innobackupex使用

主要示例:

  • 全量备份

innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf /dbbackup
  • 增量备份

innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --incremental --incremental-dir /dbbackup/2016-4-3_13:24:32 /dbbackup
  • 流方式备份

innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --stream=xbstream /dbbackup/ > /dbbackup/stream.bak
  • 并行备份

innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --parallel=4 /dbbackup/
  • 限流备份

innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --throttle=10 /dbbackup/
  • 压缩备份

innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --compress --compress-thread 4 /dbbackup/

6. 团队结构及技能树

如何制定备份策略

需要考虑的因素

  • 数据库是不是都是innodb引擎表 -> 备份方式,热备or冷备
  • 数据量大小 -> 逻辑备份or物理备份,全量or增量
  • 数据库本地磁盘空间十分充足 -> 备份到本地or远程
  • 需要多块恢复 -> 备份频率 小时or天

DBA团队更多的是负责私有DB云平台的建设。

5.3-MySQL数据恢复

Schema设计及DB拆分等由性能优化团队负责。

什么时候需要恢复数据

  • 硬件故障(如磁盘损坏)
  • 人为删除(如误删除数据、被黑)
  • 业务回滚(如游戏bug需要回档)
  • 正常需求(如部署镜像库、查看历史某时刻数据)

在线表结构变更:数据库资源申请由质量服务团队负责,做到资源的合理分布、分配,如果某个业务只需要个位数级别的DB实例,可以自行在私有DB云平台中申请部署,当数量比较大时,需要先经过质量服务团队评估通过。

数据恢复的必要条件

  • 有效备份
  • 完整的数据库操作日志(binlog)

数据库资源申请由质量服务团队负责,做到资源的合理分布、分配。如果某个业务需要小量DB实例,可以自行在私有DB云平台中申请部署;当数量比较大时,需要先经过质量服务团队评估通过才可以。返回搜狐,查看更多

数据恢复思路

  • 最新一次备份 + binlog恢复到故障时间点(适用于各种数据丢失场景)
  • 挖掘最后一次备份到故障点之间的binlog获取相关SQL语句,构造反转SQL语句并应用到数据库(只是用于记录丢失,且binlog必须是row格式)

责任编辑:

反转SQL语句

例:

t1(id primary key, a int)

反转SQL语句:

insert into t(id, a) values(1, 1) ->
delete t1 where id=1 and a=1
update t1 set a=5 where id=1 -> update t1 set a=1 where id=1
delete from t1 where id=1 -> insert into t(id, a) values(1, 1)

数据库恢复工具与命令

  • mysqldump备份 -> source恢复
  • xtrabackup备份 -> xtrabackup恢复
  • binlog备份 -> mysqlbinlog恢复

详细示例讲解

  • 恢复某几条误删数据
  • 恢复误删表、库
  • 将数据库恢复到指定时间点

恢复误删除数据

case:误操作,删除数据忘记带完整条件,执行delete from user where age > 30 [and sex=male]

需求:将被删除的数据还原

恢复前提:完整的数据库操作日志(binlog)

delete from user where sex='female';

# 首先需要找到binlog里的信息
mysqlbinlog -vv mysql-bin.000001
# 找出sql语句,然后写出反转sql语句

恢复误删表、库

case:业务被黑,表被删除了(drop teble user)

需求:将表恢复

前提:备份 + 备份以来完整binlog

innobackupex --apply-log /dbbackup/filename
# 查看binlog的位置点
cat xtrabackup_binlog_info
# 查看结束点
mysqlbinlog -vv filename

mysqlbinlog -vv --start-position=2556990 -- stop-position=2776338
mysqlbinlog -vv --start-position=2556990 -- stop-position=2776338 | mysql -uroot -p123456 --sock=/dbbackup/mysql_3309/mysqld.sock

课程小结

  • 恢复是已经非常苦逼的差事,尽量避免做。我们要做数据卫士而不是救火队员。(线上应该严格把控权限,数据变更操作应事先测试,操作时做好备份)
  • 有效备份(+binlog)是重中之重,对数据库定期备份是必须的
  • 备份是一切数据恢复的基础

5.4-MySQL线上部署

MySQL线上部署

考虑因素:

  • 版本选择, 5.1、5.5还是5.6?
  • 分支选择,官方社区版? percona server? Mariadb?
  • 安装方式,包安装?二进制包安装?源码安装?
  • 路径配置,参数配置(尽量模板化、标准化)
  • 一个实例多个库 or 多个实例单个库?

二进制安装MySQL

  • 下载软件包
  • 解压放到指定目录(比如/usr/local)
  • 将MySQL目录放到PATH中
  • 初始化实例,编辑配置文件并启动
  • 账户安全设置

编译安装MySQL

  • 下载MySQL源码安装包
  • 安装必要包(make cmake bison-devel ncurses-devel build-essential)
  • Cmake配置MySQL编译选项,可以定制需要安装的功能
  • make && make install
  • 初始化实例,编辑配置文件并启动
  • 账户安全设置

MySQL升级

  • 下载MySQL5.6安装包并配置MySQL5.6安装包安装路径
  • 关闭MySQL5.5实例,修改部分参数,使用MySQL5.6软件启动
  • 执行MySQL5.6路径下mysql_upgrade脚本
  • 验证是否成功升级

MySQL多实例安装

  • 部署好mysql软件
  • 编辑多个配置文件,初始化多个实例
  • 启动MySQL实例

MySQL多实例部署

为啥多实例部署?

  • 充分利用系统资源
  • 资源隔离
  • 业务、模块隔离

MySQL线上安装小结

  • 根据需求选择合适的版本以及分支,建议使用或升级到较高版本5.5或5.6
  • 如果需要定制MySQL功能的话,可以考虑编译安装,否则的话建议使用二进制包安装,比较省事
  • 根据机器配置选择部署多个MySQL实例还是单个实例,机器配置非常好的话,建议部署多实例

5.5-MySQL主从复制

MySQL主从复制

  • 一主一从
  • 主主复制
  • 一主多从
  • 多主一从
  • 联级复制

MySQL主从复制用途

  • 实时灾备,用于故障切换
  • 读写分离,提供查询服务
  • 备份,避免影响业务

MySQL主从复制部署

主从部署必要条件

  • 主库开启binlog日志(设置log-bin参数)
  • 主从server-id不同
  • 从库服务器能连通主库

主从部署步骤:

  • 备份还原(mysqldump或xtrabackup)
  • 授权(grant replication slave on .)
  • 配置复制,并启动(change master to)
  • 查看主从复制信息(show slave statusG)

MySQL复制存在的问题

存在的问题

  • 主机宕机后,数据可能丢失
  • 从库只有一个sql thread,主库写压力大,复制很可能延时

解决方法:

  • 半同步复制
  • 并行复制

MySQL semi-sync(半同步复制)

半同步复制

  • 5.5集成到MySQL,以插件形式存在,需要单独安装
  • 确保事务提交后binlog至少传输到一个从库
  • 不保证从库应用完这个事务的binlog
  • 性能有一定的降低,响应时间更长
  • 网络异常或从库宕机,卡住主库,直到超时或从库恢复

MySQL异步复制

./sorence.png

永利博 8

异步复制

MySQL semi-sync(半同步复制)

./sorence.png

永利博 9

半同步复制

配置MySQL半同步复制

只需一次:

主库:

INSTALL PLUGIN rpl_semi_sync_master SONAME 'semisync_master.so';

从库:

INSTALL PLUGIN rpl_semi_sync_slave SONAME 'semisync_slave.so';

动态设置:

主库:

SET GLOBAL rpl_semi_sync_master_enabled=1;
SET GLOBAL rpl_semi_sync_master_timeout=N; master 延迟切异步

从库:

SET GLOBAL rpl_semi_sync_slave_enabled=1;

配置MySQL并行复制

并行复制

  • 社区版5.6中新增
  • 并行是指从库多线程apply binlog
  • 库级别并行应用binlog,同一个数据库更改还是串行的(5.7版并行复制基于事务组)

设置

set global slave_parallel_workers=10; 设置sql线程数为10

联级复制

A -> B -> C

B中添加参数:
log_slave_updates
B将把A的binlog记录到自己的binlog日志中

复制监控

查询从库状态:

show slave statusG

复制出错处理

常见:1062(主键冲突) 1032(记录不存在)
解决:手动处理
或:
跳过复制出错
set global sql_slave_skip_counter=1

总结

  • MySQL主从复制是MySQL高可用性、高性能(负载均衡)的基础
  • 简单、灵活,部署方式多样,可以根据不同业务场景部署不同复制结构
  • MySQL主从复制目前也存在一些问题,可以根据需要部署复制增强功能来解决问题
  • 复制过程中应该时刻监控复制状态,复制出错或延时可能给系统造成影响
  • MySQL复制是MySQL数据库工程师必知必会的一项基本技能

5.6-MySQL日常运维

DBA运维工作

日常

  • 导数据、数据修改、表结构变更
  • 加权限、问题处理
    其他
  • 数据库选型部署、设计、监控、备份、优化等

导数据及注意事项

  • 数据最终形式(csv、sql文本 还是直接导入某库中)
  • 导数据方法(mysqldump、select into outfile)
  • 导数据注意事项
    • 导出为csv格式需要file权限,而且只能数据库本地导
    • 避免锁库锁表(mysqldump使用——single-transaction选项不锁表)
    • 避免对业务造成影响,尽量在镜像库做

数据修改及注意事项

  • 修改前切记做好备份
  • 开事务做,修改完检查好了再提交
  • 避免一次 修改大量数据,可以分批修改
  • 避免业务高峰期做

表结构变更注意事项

  • 在低峰期做
  • 表结构变更是否会有锁?(5.6包含online ddl功能)
  • 使用pt-online-schema-change完成表结构变更
    • 可以避免主从延时
    • 可以避免负载过高,可以限速

加权限及注意事项

  • 只给符合需求的最低权限
  • 避免授权时修改密码
  • 避免给应用账号super权限

问题处理(数据库慢?)

  • 数据库慢在哪?
  • show processlist查看mysql连接信息
  • 查看系统状态(iostat, top, vmstat)

小结

  • 日常工作比较简单,但是任何一个操作都可能影响线上服务
  • 结合不同环境,不同要求选择最合适的方法处理
  • 日常工作应该求稳不求快,保障线上稳定是DBA的最大责任

5.7-MySQL参数调优

为什么要调整参数

  • 不同服务器之间的配置、性能不一样
  • 不同业务场景对数据的需求不一样
  • MySQL的默认参数只是个参考值,并不适合所有的应用场合

优化之前我们需要知道什么

  • 服务器相关的配置
  • 业务相关的情况
  • MySQL相关的配置

服务器上需要关注哪些

  • 硬件情况
  • 操作系统版本
  • CPU、网卡节电模式
  • 服务器numa设置
  • RAID卡缓存

磁盘调度策略-write back

  • 数据写入cache既返回,数据异步的从cache刷入存储介质

磁盘调度策略-write through

  • 数据同时写入cache和存储介质才返回写入成功

Write Back VS Write Through

  • write Back 性能优于 Write Through
  • Write Through 比 Write Back安全性高

RAID

  • RAID Redundant Array of Independent Disks
    • 生产环境里一般不太会用裸设备,通常会使用RAID卡对一块盘或多块盘做RAID
    • RAID卡会预留一块内存,来保证数据高效存储与读取
    • 常见的RAID类型有:RAID1、RAID0、RAID10和RAID5

RAID0 VS RAID1

  • RAID 0 – Block Striped. No Mirror. No Parity.
  • RAID 1 – Block Mirrored. No Stripe. No Parity.

RAID5 VS RAID10

  • RAID 5 – Block Striped. Distributed
    Parity.(至少三块盘,每块里有两个数据块和一个校验块)
  • RAID 10 – Block
    Mirrored.(每两块盘做RAID1,然后再按组做RAID0,至少四块盘)

RAID如何保证数据安全

  • BBU(Backup Battery Unit)
    • BBU保证在WB策略下,即使服务器发生掉电或者宕机,也能够将缓存数据写入到磁盘,从而保证数据的安全

MySQL有哪些注意事项

  • MySQL的部署安装
  • MySQL的监控
  • MySQL参数调优

部署MySQL的要求

  • 推荐的MySQL版本: >= MySQL5.5
  • 推荐的MySQL存储引擎: InnoDB

系统调优的依据:监控

  • 实时监控MySQL的slow log
  • 实时监控数据库服务器的负载情况
  • 实时监控MySQL内部状态值

通常关注哪些MySQL Status

  • Com_Select/Update/Delete/Insert
  • Bytes_received/Bytes_sent
  • Buffer Pool Hit Rate
  • Threads_connected/Threads_created/Threads_running

MySQL参数调优

  • 为什么要调整MySQL的参数
    • MySQL是通用数据库,但业务是多变的,默认参数无法满足所有业务需求
    • MySQL内部一些参数是在MySQL一些很老的版本时候做的,可能之前是做限流和保护用的,但随着机器性能的提高,这些保护类的参数可能会成为性能瓶颈

读优化

  • 合理利用索引对MySQL查询性能至关重要
  • 适当的调整参数也能提升查询性能

innodb_buffer_pool_size

  • InnoDB存储引擎自己维护一块内存区域完成新老数据的替换
  • 内存越大越能缓存更多的数据

innodb_thread_concurrency

  • innoDB内部并发控制参数,设置为0代表不做控制
  • 如果并发请求较多,参数设置较小,后进来的请求将会排队

写优化

  • 表结构设计上使用自增字段作为表的主键
  • 只对合适的字段加索引,索引太多影响写入性能
  • 监控服务器磁盘IO情况,如果写延迟较大则需要扩容
  • 选择正确的MySQL版本,合理设置参数

哪些参数有助于提高写入性能

  • innoDB_flush_log_at_trx_commit && sync_binlog
  • innodb log file size
  • innodb_io_capacity
  • innodb insert buffer

主要影响MySQL写性能的两个参数

  • innoDB_flush_log_at_trx_commit
  • sync_binlog

innoDB_flush_log_at_trx_commit

  • 控制InnoDB事务的刷新方式,一共有三个值:0,1,2
    • N=0 –
      每隔一秒,把事务日志缓存区的数据写到日志文件中,以及把日志文件的数据刷新到磁盘上(高效,但不安全)
    • N=1 –
      每个事务提交时候,把事务日志从缓存区写到日志文件中,并且刷新日志文件的数据到磁盘上,优先使用此模式保障数据安全性(低效,非常安全)
    • N=2 –
      每事务提交的时候,把事务日志数据从缓存区写到日志文件中;每隔一秒,但不一定刷新到磁盘上,而是取决于操作系统的调度(高效,但不安全)

sync_binlog

  • 控制每次写入Binlog,是否都需要进行一次持久化

如何保证事务的安全

  • innoDB_flush_log_at_trx_commit 和 sync_binlog都设为1
  • 事务要和Binlog保证一致性

(加锁)-> xa_prepare, Fsync -> Write And Fsync Binlog -> InnoDB
Commit, Fsync ->(释放锁)

串行有哪些问题

  • SAS盘一般每秒只能有150~200个Fsync。
  • 换算到数据库每秒只能执行50~60个事务

社区和官方的改进

  • MariaDB提出改进,即使这两个参数都是1也能做到合并效果,性能得到了大幅提高。
  • 官方吸收了MariaDB的思想,并在此基础上进行了改进,性能再次得到了提高

Tips:

  • 官方在MySQL5.6版本之后才做了这个优化
  • Percona和MariaDB版本在MySQL5.5已经包含了这个优化

InnoDB Redo log

  • Write ahead Log

Redo log的作用

  • Redo log用在数据库崩溃会的故障恢复

Redo log有哪些问题

  • 如果写入频繁导致Redo
    log里对应的最老的数据脏页还没有刷新到磁盘,此时数据库将卡住,强制刷新脏页到磁盘
  • MySQL默认配置两个文件才10M,非常容易写满,生产环境中应适当调整大小。

innodb_io_capacity

  • InnoDB每次刷多少个脏页,决定InnoDB存储引擎的吞吐能力。
  • 在SSD等高性能存储介质下,应该提高该参数以提高数据库的性能。

Insert Buffer

  • 顺序读写 VS 随机读写
  • 随机请求性能远小于顺序请求

尽可能多的随机请求合并为顺序请求才是提高数据库性能的关键

  • MySQL从5.1版本开始支持Insert Buffer
  • MySQL5.5版本之后同时支持update和delete的merge
  • Insert Buffer只对二级索引且非唯一索引有效

总结

  • 服务器配置要合理(内核版本、磁盘调度策略、RAID卡缓存)
  • 完善的监控系统,提前发现问题
  • 数据库版本要跟上,不要太新,也不要太老
  • 数据库性能优化:
    • 查询优化:索引优化为主,参数优化为辅
    • 写入优化:业务优化为主,参数优化为辅

相关文章

网站地图xml地图