mysql io_MySQL占用IO过高解决方案

2023-11-14

IO过高是指输入输出过高了这个有许多原因都会导致mysqlIO过高了,小编见过apache处理数据缓存导致mysqlIO过高问题当然也有其它关于mysql本身问题导致mysqlIO过高的问题了,下面给各位整理总结一下关于mysqlIO过高处理办法。

1、日志产生的性能影响:

由于日志的记录带来的直接性能损耗就是数据库系统中最为昂贵的IO资源。MySQL的日志包括错误日志(ErrorLog),更新日志(UpdateLog),二进制日志(Binlog),查询日志(QueryLog),慢查询日志(SlowQueryLog)等。当然,更新日志是老版本的MySQL才有的,目前已经被二进制日志替代。

在默认情况下,系统仅仅打开错误日志,关闭了其他所有日志,以达到尽可能减少IO损耗提高系统性能的目的。但是在一般稍微重要一点的实际应用场景中,都至少需要打开二进制日志,因为这是MySQL很多存储引擎进行增量备份的基础,也是MySQL实现复制的基本条件。有时候为了进一步的性能优化,定位执行较慢的SQL语句,很多系统也会打开慢查询日志来记录执行时间超过特定数值(由我们自行设置)的SQL语句。

一般情况下,在生产系统中很少有系统会打开查询日志。因为查询日志打开之后会将MySQL中执行的每一条Query都记录到日志中,会该系统带来比较大的IO负担,而带来的实际效益却并不是非常大。一般只有在开发测试环境中,为了定位某些功能具体使用了哪些SQL语句的时候,才会在短时间段内打开该日志来做相应的分析。所以,在MySQL系统中,会对性能产生影响的MySQL日志(不包括各存储引擎自己的日志)主要就是Binlog了。

2、mysql内执行如下指令:

set global sync_binlog=500;

当每进行500次事务提交之后,MySQL将进行一次fsync之类的磁盘同步指令来将binlog_cache中的数据强制写入磁盘。

set global innodb_flush_log_at_trx_commit=2;

默认值1代表每一次事务提交或事务外的指令都需要把日志写入(flush)硬盘,这是很费时的。特别是使用电池供电缓存(Battery backed up cache)时。设置为2代表不写入硬盘而是写入系统缓存。日志仍然会每秒flush到硬盘,所以你一般不会丢失超过1-2秒的更新。设成0会更快一点,但安全方面比较差,即使MySQL挂了也可能会丢失事务的数据。而值设置为2只会在整个操作系统宕机时才可能丢数据。

注:重新开机后,该指令失效。可在服务启动时,设置如上两项。

于临时表导致IO过高

【问题现象】

线上mysql数据库爆出一个慢查询,DBA观察发现,查询时服务器IO飙升,IO占用率达到100%, 执行时间长达7s左右。

SQL语句如下:

SELECT DISTINCT g.*, cp.name AS cp_name, c.name AS category_name, t.name AS type_name FROMgm_game g

LEFT JOIN gm_cp cp ON cp.id = g.cp_id AND cp.deleted = 0

LEFT JOIN gm_category c ON c.id = g.category_id AND c.deleted = 0 \

LEFT JOIN gm_type t ON t.id = g.type_id AND t.deleted = 0 WHERE g.deleted = 0 ORDER BY g.modify_time DESC LIMIT 20 ;

【问题分析】

使用explain查看执行计划,结果如下:

mysql执行计划

这条sql语句的问题其实还是比较明显的: 查询了大量数据(包括数据条数、以及g.* ),然后使用临时表order by,但最终又只返回了20条数据。

DBA观察到的IO高,是因为sql语句生成了一个巨大的临时表,内存放不下,于是全部拷贝到磁盘,导致IO飙升。

【优化方案】

优化的总体思路是拆分sql,将排序操作和查询所有信息的操作分开。

第一条语句:查询符合条件的数据,只需要查询g.id即可

SELECT DISTINCT g.id FROM gm_game g

LEFT JOIN gm_cp cp ON cp.id = g.cp_id AND cp.deleted = 0

LEFT JOIN gm_category c ON c.id = g.category_id AND c.deleted = 0

LEFT JOIN gm_type t ON t.id = g.type_id AND t.deleted = 0

WHERE g.deleted = 0 ORDER BY g.modify_time DESC LIMIT 20 ;

第二条语句:查询符合条件的详细数据,将第一条sql的结果使用in操作拼接到第二条的sql

SELECT DISTINCT g.*, cp.name AS cp_name,c.name AS category_name,t.name AS type_name FROM gm_game g

LEFT JOIN gm_cp cp ON cp.id = g.cp_id AND cp.deleted = 0

LEFT JOIN gm_category c ON c.id = g.category_id AND c.deleted = 0

LEFT JOIN gm_type t ON t.id = g.type_id AND t.deleted = 0

WHERE g.deleted = 0 and g.id in(…………………) ORDER BY g.modify_time DESC ;

【实测效果】

在SATA机器上测试,优化前大约需要50s,优化后第一条0.3s,第二条0.1s,优化后执行速度是原来的100倍以上,IO从100%降到不到1%

在SSD机器上测试,优化前大约需要7s,优化后第一条0.3s,第二条0.1s,优化后执行速度是原来的10倍以上,IO从100%降到不到1%

可以看出,优化前磁盘io是性能瓶颈,SSD的速度要比SATA明显要快,优化后磁盘不再是瓶颈,SSD和SATA性能没有差别。

【理论分析】

MySQL在执行SQL查询时可能会用到临时表,一般情况下,用到临时表就意味着性能较低。

临时表存储

MySQL临时表分为“内存临时表”和“磁盘临时表”,其中内存临时表使用MySQL的MEMORY存储引擎,磁盘临时表使用MySQL的MyISAM存储引擎;

一般情况下,MySQL会先创建内存临时表,但内存临时表超过配置指定的值后,MySQL会将内存临时表导出到磁盘临时表;

Linux平台上缺省是/tmp目录,/tmp目录小的系统要注意啦。

使用临时表的场景

1)ORDER BY子句和GROUP BY子句不同, 例如:ORDERY BY price GROUP BY name;

2)在JOIN查询中,ORDER BY或者GROUP BY使用了不是第一个表的列 例如:SELECT * from TableA, TableB ORDER BY TableA.price GROUP by TableB.name

3)ORDER BY中使用了DISTINCT关键字 ORDERY BY DISTINCT(price)

4)SELECT语句中指定了SQL_SMALL_RESULT关键字 SQL_SMALL_RESULT的意思就是告诉MySQL,结果会很小,请直接使用内存临时表,不需要使用索引排序 SQL_SMALL_RESULT必须和GROUP BY、DISTINCT或DISTINCTROW一起使用 一般情况下,我们没有必要使用这个选项,让MySQL服务器选择即可。

直接使用磁盘临时表的场景

1)表包含TEXT或者BLOB列;

2)GROUP BY 或者 DISTINCT 子句中包含长度大于512字节的列;

3)使用UNION或者UNION ALL时,SELECT子句中包含大于512字节的列;

临时表相关配置

tmp_table_size:指定系统创建的内存临时表最大大小; http://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html#sysvar_tmp_table_size

max_heap_table_size: 指定用户创建的内存表的最大大小; http://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html#sysvar_max_heap_table_size

注意:最终的系统创建的内存临时表大小是取上述两个配置值的最小值。

表的设计原则

使用临时表一般都意味着性能比较低,特别是使用磁盘临时表,性能更慢,因此我们在实际应用中应该尽量避免临时表的使用。 常见的避免临时表的方法有:

1)创建索引:在ORDER BY或者GROUP BY的列上创建索引;

2)分拆很长的列:一般情况下,TEXT、BLOB,大于512字节的字符串,基本上都是为了显示信息,而不会用于查询条件, 因此表设计的时候,应该将这些列独立到另外一张表。

SQL优化

如果表的设计已经确定,修改比较困难,那么也可以通过优化SQL语句来减少临时表的大小,以提升SQL执行效率。

常见的优化SQL语句方法如下:

1)拆分SQL语句

临时表主要是用于排序和分组,很多业务都是要求排序后再取出详细的分页数据,这种情况下可以将排序和取出详细数据拆分成不同的SQL,以降低排序或分组时临时表的大小,提升排序和分组的效率,我们的案例就是采用这种方法。

2)优化业务,去掉排序分组等操作

有时候业务其实并不需要排序或分组,仅仅是为了好看或者阅读方便而进行了排序,例如数据导出、数据查询等操作,这种情况下去掉排序和分组对业务也没有多大影响。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

mysql io_MySQL占用IO过高解决方案 的相关文章

  • tfidf+余弦相似度

    1 TfidfVectorizers生成的矩阵 要使用每一行的时候 必须重新存入新的数组 否则无法进行相似度计算 2 矩阵超出255 255 xlwt不适用 使用xlsxwriter 3 导出词袋的时候 按一列N行保存 不要按一行N列 xl
  • 机械革命z2黑苹果改造计划第三番-macOS键盘快捷键&Win键盘适配

    macOS键盘快捷键 Win键盘适配 键盘区别 首先下图是苹果妙控键盘无指纹版 官网售价699 穷学生的我是真的买不起 然后下图是我正在使用的机械键盘ikbc w200 87键版本 可以看出两者在键位排列上的区别主要在于 win comma
  • xshell连接服务器报找不到匹配的host key算法

    在使用xshell的过程中 出现找不到host key算法问题 但有几台服务器可以正常使用 经过排查发现是xshell的bug问题 有博主也进行过详细说明 如右侧链接 https blog csdn net cpanq2008 articl
  • 面向对象OO 设计、架构终极理解, 以及如何学习一个领域

    程序就是一些互相引用的内存快 互相发消息 每个内存块就是一个状态机 状态的迁移规则是定制好的一些消息 方法 构造函数用来初始化状态 一个内存块的方法除了改变自身状态 也有可能向引用的别内存快发消息 引起别的内存块发生状态转移 重点不在过程化
  • 常用数学函数

    转自 https zh cppreference com w cpp numeric math 函数 定义于头文件
  • 详解Transformer的自注意力机制、位置编码以及整体架构(内容生动易懂,并有完整transformer架构详解)

    文章目录 1 3 Transformer一些前置知识 1 3 1 自注意力机制 Self Attention very important 1 3 2 位置编码 Positional Encoding 1 3 3 Transformer模型
  • @RabbitListener和@RabbitHandler的使用

    1 RabbitListener 注解是指定某方法作为消息消费的方法 例如监听某 Queue 里面的消息 2 RabbitListener标注在方法上 直接监听指定的队列 此时接收的参数需要与发送市类型一致 Component public
  • 常见的Linux系统性能问题及其解决方法

    CPU负载高 如果CPU负载高 可能是由于CPU资源不足或进程 服务的异常活动所致 可以使用top或htop命令查看系统的CPU使用情况 并确定哪个进程或服务使用了大量的CPU资源 如果负载高 可以考虑增加CPU资源或优化进程 服务的代码或
  • 快手如何引流的话术?在快手引流精准粉丝的技巧

    互联网创业圈大部分的项目都离不开流量 更别说精准流量了 流量可以说是大部分互联网创业者心里的痛处 很多人都说 流量难求 其实 要么是不擅长引流 要么是方法出了问题 那么 要如何引流比较好呢 今天 主要讲讲快手这个渠道是如何做的 其实 点石汇
  • C++11-14 第6讲 explicit关键字

    explicit 用来针对构造函数有多个实参 include
  • 利用python进行数据分析——pandas

    import pandas as pd import numpy as np np random seed 12345 import matplotlib pyplot as plt 1 介绍Pandas 工具一 Series obj pd
  • 总结一下多益网络数据研发校招面试

    1 自我介绍 2 说一下你觉得最好的项目 3 数据仓库分层 4 说一下主键和唯一索引 5 说一下hive的group by 怎么在mapreduce执行的 6 说一下hashmap和map区别 7 说一下数据预处理 8 说一下MR原理 9
  • 少儿编程要先学会电脑和英语

    格物斯坦小坦克想说的是少儿编程和计算机代码编程是不一样的 很多人对孩子学习的Scratch语言和成人学习的Java C语言等区分不开 因而习惯性的抗拒说 我的孩子以后可能不会成为一个程序员 学习之前是不是先要懂英语和电脑 实际上少儿电脑编程
  • 如何编写有多个返回值的C语言函数

    1引言 笔者从事C语言教学多年 在教学中学生们常常会问到如何编写具有多个返回值的C语言函数 编写有多个返回值的函数是所有C语言教材里均没有提到的知识点 但在实际教学与应用的过程中我们都有可能会遇到这样的问题 有学生也尝试了不少方法 如把多个
  • B - Equations

    B Equations Consider equations having the following form ax12 b x22 cx32 d x42 0 a b c d are integers from the interval
  • 使用Idea创建一个JavaWeb的SSM(maven)项目~(史上最详细,傻瓜式教学,跟着我的做,不会你找我)

    今天讲的是如何用idea创建一个JavaWeb的Maven SSM项目并且实现简单的登陆功能 项目源码在最后 需要的可以自行下载 本文章过于详细过于面向小白 并且在讲解SSM项目的搭建过程中涉及到了小白们极有可能遇到的Idea的坑 文章比较
  • Keystone 高可靠性部署与性能测试

    Goal Keystone Region 为跨地域的 Openstack 集群提供了统一的认证和用户租户管理 目前公司在国内外部署了数十套 Openstack 集群 其中既有集群在内网 又有集群在公网 既有 Havana 集群 也有 Ice
  • Thumb和ARM指令不能切换问题(error:unsupported interworking call (Thumb -> ARM))

    1 报错现象 xxx ko ection 3 reloc 4 sym xxxxxx unsupported interworking call Thumb gt ARM 2 报错原因和分析 报错信息的翻译 程序不支持代码交织 thumb态切
  • Spring入门简介

    Spring框架是Java平台上最流行的企业应用程序开发框架之一 它是一个轻量级的开源框架 被设计为简化企业级应用程序的开发 Spring的核心目的是为了解决企业应用程序的开发问题 包括代码的耦合 事务管理 异常处理 数据访问 安全性 We

随机推荐