MySQL架构存储引擎以及性能优化

2023-10-27

文章目录

MySQL架构图
性能监控
schema与数据类型优化
执行计划
索引优化
查询优化
分区表

MySQL架构图

在这里插入图片描述

连接器：管理数据库连接，权限验证
用户成功建立连接后，即使管理员账号对这个用户的权限做了修改，也不会影响已经存在连接的权限。修改完成后，只有再新建的连接才会使用新的权限设置。wait_timeout超时，客户端自动断开。
查询缓存：命中查询就返回，反之执行分析查询
MySQL拿到一个查询请求后，会先查询缓存。key是查询的语句，value是查询结果。
分析器：分析查询语句，识别关键字
分析器先做词法分析,判断SQL语句是否满足MySQL语法规则。
优化器：执行SQL之前，要经过优化器处理
表中有多个索引，决定使用哪个索引，多表关联，决定连接顺序。
执行器：执行SQL语句
执行器根据引擎定义，去使用这个引擎的接口，查询满足条件的记录返回客户端。

性能监控

设置(set profiling=1;show profiles; )，使用show profile查询剖析工具。设置type具体属性值。

show profile [type...] for query n

all：显示所有性能信息 
block io：显示块io操作的次数
context switches：显示上下文切换次数，被动和主动
cpu：显示用户cpu时间、系统cpu时间
IPC：显示发送和接受的消息数量
page faults：显示页错误数量
source：显示源码中的函数名称与位置
swaps：显示swap的次数

使用performance schema更加容易的监控mysql。

SHOW VARIABLES LIKE 'performance_schema';
在配置文件中修改performance_schema的属性值，on表示开启，off表示关闭(关闭时需要修改配置文件my.cnf)

UPDATE setup_instruments SET ENABLED = 'YES', TIMED = 'YES'where name like 'wait%';
打开等待事件的采集器配置项开关

UPDATE setup_consumers SET ENABLED = 'YES'where name like '%wait%';
打开等待事件的保存表配置开关

select * from events_waits_current\G
************************************************************
 THREAD_ID: 11
 EVENT_ID: 570
 END_EVENT_ID: 570
 EVENT_NAME: wait/synch/mutex/innodb/buf_dblwr_mutex
 SOURCE: 
 TIMER_START: 4508505105239280
 TIMER_END: 4508505105270160
 TIMER_WAIT: 30880
 OBJECT_INSTANCE_BEGIN: 67918392
 OPERATION: lock
************************************************************
id:事件来自哪个线程，事件编号是多少
event_name:表示检测到的具体的内容
source:表示这个检测代码在哪个源文件中以及行号
timer_start:表示该事件的开始时间
timer_end:表示该事件的结束时间
timer_wait:表示该事件总的花费时间

使用show processlist查看连接的线程个数，来观察是否有大量线程处于不正常的状态或者其他不正常的特征。

show processlist;

id列，用户登录mysql时，系统分配的"connection_id"，可以使用函数connection_id()查看
user列，显示当前用户。如果不是root，这个命令就只显示用户权限范围的sql语句
host列，显示这个语句是从哪个ip的哪个端口上发的，可以用来跟踪出现问题语句的用户
db列，显示这个进程目前连接的是哪个数据库
command列，显示当前连接的执行的命令，一般取值为休眠（sleep），查询（query），连接（connect）等
time列，显示这个状态持续的时间，单位是秒
state列，显示使用当前连接的sql语句的状态，很重要的列。
info列，显示这个sql语句，是判断问题语句的一个重要依据。

schema与数据类型优化

1：数据类型优化
- 更小的通常更好
  应该尽量使用可以正确存储数据的最小数据类型，更小的数据类型通常更快，因为它们占用更少的磁盘、内存和CPU缓存，并且处理时需要的CPU周期更少。
- 简单就好
  整型比字符操作代价更低，因为字符集和校对规则是字符比较比整型比较更复杂；
  日期类型不要使用字符串；
  IP地址存储整型节省空间；
- 避免null，null很难优化,因为可为null的列使得索引、索引统计和值比较都更加复杂。
- 数据存储满足需求的最小数据类型。
- char长度255字节，定长，存储会去掉末尾空格。
- varchar长度65536字节，可变长度，更加节省空间。
- datetime精确到毫秒，与时区无关，占用8个字节。
- timestamp精确到秒，依赖数据库时区，占用4个字节，时间限制（1970-01-01到2038-01-19）。
- date占用3个字节，date类型用于保存1000-01-01到9999-12-31之间的日期。
- 性别类型的列可以选择枚举（enum），减少整形转化的过程。
2：合理使用范式和反范式
- ```
  三大范式
  1.数据表的每一列都要保持它的原子特性，也就是列不能再被分割。
  2.属性必须完全依赖于主键。
  3.所有的非主属性不依赖于其他的非主属性 	
```
- 范式
  优点：范式化的更新通常比反范式要快；
  当数据较好的范式化后，很少或者没有重复的数据；
  范式化的数据比较小，可以放在内存中，操作比较快;
  缺点：业务字段需要关联查询;
- 反范式
  优点：反范式化指的是通过增加冗余或重复的数据来提高数据库的读性能;
  可以设计有效的索引；
  缺点：存在数据冗余以及数据维护异常，对数据的修改需要成本，以及不及时。

3：存储引擎的选择

存储引擎对比

如果要提供提交、回滚、崩溃恢复能力的事物安全（ACID兼容）能力，并要求实现并发控制，InnoDB是一个好的选择,数据文件（frm,idb）；

如果数据表主要用来插入和查询记录，则MyISAM引擎能提供较高的处理效率,,数据文件(frm,MYD,MYI）；

如果只是临时存放数据，数据量不大，并且不需要较高的数据安全性，可以选择将数据保存在内存中的Memory引擎，MySQL中使用该引擎作为临时表，存放查询的中间结果；

4：适当的数据冗余
- 被频繁引用且只能通过 Join 2张(或者更多)大表的方式才能得到的独立小字段。
5：字符集选择
- 纯拉丁字符能表示的内容，没必要选择 latin1 之外的其他字符编码，因为这会节省大量的存储空间。

执行计划

explain select * from user;

id：select查询的序列号，包含一组数字，表示查询中执行select子句或者操作表的顺序

如果id相同，那么执行顺序从上到下。
如果id不同，如果是子查询，id的序号会递增，id值越大优先级越高，越先被执行 。
id相同和不同的，同时存在：相同的可以认为是一组，从上往下顺序执行，在所有组中，id值越大，优先级越高，越先执行。

select_type：主要用来分辨查询的类型，是普通查询还是联合查询还是子查询

sample:简单的查询，不包含子查询和union
primary:查询中若包含任何复杂的子查询，最外层查询则被标记为Primary
union:若第二个select出现在union之后，则被标记为union
dependent union:跟union类似，此处的depentent表示union或union all联合而成的结果会受外部表影响
union result:从union表获取结果的select
subquery:在select或者where列表中包含子查询
dependent subquery:subquery的子查询要受到外部表查询的影响
derived:from子句中出现的子查询，也叫做派生类
uncacheable subquery：表示使用子查询的结果不能被缓存

table：对应行正在访问哪一个表，表名或者别名，可能是临时表或者union合并结果集

type：显示的是访问类型

访问类型表示我是以何种方式去访问我们的数据，效率高到低依次是:
system > const > eq_ref > ref > fulltext > ref_or_null > index_merge > unique_subquery > index_subquery > range > index > ALL 

all:全表扫描，一般情况下出现这样的sql语句而且数据量比较大的话那么就需要进行优化。
index：全索引扫描这个比all的效率要好，主要有两种情况，一种是当前的查询时覆盖索引，即我们需要的数据在索引中就可以索取，或者是使用了索引进行排序，这样就避免数据的重排序
range：表示利用索引查询的时候限制了范围，在指定范围内进行查询，这样避免了index的全索引扫描，适用的操作符： =, <>, >, >=, <, <=, IS NULL, BETWEEN, LIKE, or IN() 
index_subquery：利用索引来关联子查询，不再扫描全表
unique_subquery:该连接类型类似与index_subquery,使用的是唯一索引
index_merge：在查询过程中需要多个索引组合使用
ref_or_null：对于某个字段即需要关联条件，也需要null值的情况下，查询优化器会选择这种访问方式
ref：使用了非唯一性索引进行数据的查找
eq_ref ：使用唯一性索引进行数据查找
const：这个表至多有一个匹配行
system：表只有一行记录（等于系统表），这是const类型的特例，平时不会出现

possible_keys：显示可能应用在这张表中的索引，一个或多个，查询涉及到的字段上若存在索引，则该索引将被列出，但不一定被查询实际使用
key：实际使用的索引，如果为null，则没有使用索引，查询中若使用了覆盖索引，则该索引和查询的select字段重叠
key_len：表示索引中使用的字节数，可以通过key_len计算查询中使用的索引长度，在不损失精度的情况下长度越短越好
ref：显示索引的哪一列被使用了，如果可能的话，是一个常数
rows：根据表的统计信息及索引使用情况，大致估算出找出所需记录需要读取的行数，此参数很重要，直接反应的sql找了多少数据，在完成目的的情况下越少越好

extra：包含额外的信息

using filesort:说明mysql无法利用索引进行排序，只能利用排序算法进行排序，会消耗额外的位置
using temporary:建立临时表来保存中间结果，查询完成之后把临时表删除
using index:这个表示当前的查询时覆盖索引的，直接从索引中读取数据，而不用访问数据表。
using where:使用where进行条件过滤
using index condition：使用索引查询，但不是所有的列数据都在索引树上，还需要访问实际的行记录
using join buffer (Block Nested Loop)：需要进行嵌套循环计算，性能较低，需要进行优化

索引优化

B+Tree数据结构

在这里插入图片描述

索引基本知识

索引的优点
1、索引大大减小了服务器需要扫描的数据量
2、索引可以帮助服务器避免排序和临时表
3、索引可以将随机IO变成顺序IO

索引的用途
1、快速查找匹配WHERE子句的行
2、如果有多个索引可以选择，MYSQL通常使用查找最少行的索引
3、如果是组合索引，优化器可以使用索引的任何最左前缀来查找行
4、关联查询时，声明列的类型和大小相同，可以使用索引，否则索引失效
5、查找特定索引列的min或max值
6、如果排序或者分组是在组合索引上完成的，则对表进行排序或者分组
7、如果只查询表中包含的索引列，则从索引树上查询所需字段（覆盖索引），提高查询速度	

索引分类 
1、普通索引：最基本的数据类型，没有任何限制，加速系统对数据的访问，允许在定义的索引列中插入重复值和NULL
2、唯一索引：和普通索引类似，避免数据重复，唯一索引的列值必须唯一，允许有NULL
3、主键索引：为主键创建的索引，特殊的唯一索引，不允许有NULL
4、全文索引：主要用来查找文本中的关键字，char、varchar，text 列上可以创建全文索引。
5、组合索引：多列值组成的一个索引，用于组合查询，组合索引遵循最左匹配原则

索引数据结构
1、哈希索引
2、B+Tree

索引匹配方式
1、全值匹配：全值匹配指的是和索引中的所有列进行匹配
2、最左前缀匹配：匹配组合索引的创建顺序的列
3、列前缀匹配：可以匹配某一列的值的开头部分
4、范围值匹配：可以查找某一个范围的数据
5、索引查询：查询索引列，不需要访问数据行，覆盖索引

覆盖索引

定义
1、如果一个索引包含查询的字段，我们称之为覆盖索引
2、不是所有类型的索引都可以称为覆盖索引，覆盖索引必须要存储索引列的值
3、不同的存储实现覆盖索引的方式不同，不是所有的引擎都支持覆盖索引，memory不支持覆盖索引

特点
1、索引远远小于数据记录，只读取索引列，减少回表次数，提升查询效率
2、索引是按照列值顺序存储的，对于IO密集型的查询，顺序查找比随机从磁盘读取数据IO次数少的多
3、INNODB的聚簇索引，覆盖索引对INNODB表特别有用

优化细节

1、当使用索引列进行查询的时候尽量不要使用表达式，把计算放到业务层而不是数据库层
2、尽量使用主键查询，而不是其他索引，因此主键查询不会触发回表查询
3、强制类型转换会全表扫描
4、范围列可以用到索引，但是范围列后面的列无法用到索引，索引最多用于一个范围列
5、更新十分频繁，数据区分度不高的字段上不宜建立索引
6、当需要进行表连接的时候，最好不要超过三张表，因为需要join的字段，数据类型必须一致
7、索引不是越多越好
8、text、blob或者很长varchar创建索引必须使用前缀索引（不重复的索引值和数据表的记录总数的比值）
9、union all,in,or使用时，推荐使用in

查询优化

优化数据访问

1、查询性能低的主要原因是访问数据太多，通过减少访问数据量优化
2、多表关联返回需要的列
3、禁止使用select *
4、如果需要不断的重复执行相同的查询，将这部分数据存入缓存提高效率

优化器优化策略

1、静态优化，直接对解析树进行分析，并完成优化
2、动态优化，动态优化与查询的上下文有关，也可能跟取值、索引对应的行数有关
3、mysql对查询的静态优化只需要一次，但对动态优化在每次执行时都需要重新评估

优化器的优化类型

1、重新定义关联表的顺序
2、将外连接转化成内连接，内连接的效率要高于外连接
3、mysql在某些情况下可以将子查询转换一种效率更高的形式，从而减少多个查询多次对数据进行访问

关联查询
mysql只支持一种join算法：Nested-Loop Join（嵌套循环连接），但Nested-Loop Join有三种变种：Simple Nested-Loop Join，Index Nested-Loop Join，Block Nested-Loop Join。
1、Simple Nested-Loop Join

2、Index Nested-Loop Join

3、Block Nested-Loop Join

优化特定类型的查询

1、关联查询，确保on的连接列上有索引
2、子查询，尽可能的使用关联查询代替
3、limit分页，数据量特别大时，使用覆盖索引做关联查询或者使用where
4、count()函数，1、*、id没有区别
5、排名语句优化，开窗函数5.7及一下版本使用用户自定义变量

分区表

分区表的原理
分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们也可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样，所有的底层表都必须使用相同的存储引擎，分区表的索引只是在各个底层表上各自加上一个完全相同的索引。

select：当查询一个分区表的时候，分区层先打开并锁定住所有的底层表，优化器先判断是否可以过滤部分分区，然后在调用对应的存储引擎接口访问各个分区的数据。
insert：当写入一条记录时，分区层先打开并锁住所有的底层表，然后确定那个分区接收这条记录，在将记录写入对应底层表。
delete：当删除一条记录时，分区层先打开并锁住所有的底层表，然后确定数据对应的分区，最后对相应底层表进行删除操作。
update：当更新一条记录时，分区层先打开并锁住所有的底层表，MySQL先确定需要更新的记录在哪个分区，然后取出数据并更新，在判断更新后的数据应该放在哪个分区，最后对底层表进行写入操作，并对原数据所在的底层表进行删除操作。

分区适用场景
- 1、表非常大无法全部都放在内存中，或者只是在表的最后部分有热点数据，其他均是历史数据。
- 2、分区表的数据更容易维护。例如，想批量删除大量数据可以使用清除整个分区的方式。另外，还可以对一个独立分区进行优化、检查、修复等操作。
- 3、分区表的数据分布在不同的物理设备，从而高效的利用多个硬件设备。
- 4、使用分区表避免某些特殊的瓶颈，例如InnoDB的单个索引的互斥访问、ext3文件系统的inode锁竞争等
- 5、备份和恢复独立的分区，这在非常大的数据集的场景下更高效。

分区类型

RANGE分区：按范围进行分区的表将进行分区，以使每个分区都包含行，分区的表达式值位于给定范围内。范围应该是连续的，但不能重叠，并且是使用VALUES LESS THAN运算符定义的。

CREATE TABLE employees (
id INT NOT NULL,
fname VARCHAR(30),
lname VARCHAR(30),
hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT NOT NULL,
    store_id INT NOT NULL
)
PARTITION BY RANGE (store_id) (
    PARTITION p0 VALUES LESS THAN (6),
    PARTITION p1 VALUES LESS THAN (11),
    PARTITION p2 VALUES LESS THAN (16),
    PARTITION p3 VALUES LESS THAN (21)
);

LIST分区：MySQL中的列表分区在很多方面类似于范围分区。与范围分区一样，必须明确定义每个分区。两种类型的分区之间的主要区别在于，在列表分区中，每个分区都是基于一组值列表中的一个而不是一组连续范围中的列值的成员资格来定义和选择的。

CREATE TABLE employees (
id INT NOT NULL,
fname VARCHAR(30),
lname VARCHAR(30),
hired DATE NOT NULL DEFAULT '1970-01-01',
separated DATE NOT NULL DEFAULT '9999-12-31',
job_code INT,
store_id INT
)
PARTITION BY LIST(store_id) (
    PARTITION pNorth VALUES IN (3,5,6,9,17),
    PARTITION pEast VALUES IN (1,2,10,11,19,20),
    PARTITION pWest VALUES IN (4,12,13,14,18),
    PARTITION pCentral VALUES IN (7,8,15,16)
);

COLUMNS分区
COLUMNS分区是RANGE和LIST分区的变种。
RANGE COLUMNS分区和LIST COLUMNS分区都支持使用非整数列来定义值范围或列表成员
1：数值：TINYINT、 SMALLINT、 MEDIUMINT、 INT (INTEGER)、 BIGINT
2：字符：CHAR、VARCHAR、BINARY、 VARBINARY
3：日期：DATE 和 DATETIME.

CREATE TABLE customers_1 (
first_name VARCHAR(25),
last_name VARCHAR(25),
street_1 VARCHAR(30),
street_2 VARCHAR(30),
city VARCHAR(15),
renewal DATE
)
PARTITION BY LIST COLUMNS(city) (
    PARTITION pRegion_1 VALUES IN('Oskarshamn', 'Högsby', 'Mönsterås'),
    PARTITION pRegion_2 VALUES IN('Vimmerby', 'Hultsfred', 'Västervik'),
    PARTITION pRegion_3 VALUES IN('Nässjö', 'Eksjö', 'Vetlanda'),
    PARTITION pRegion_4 VALUES IN('Uppvidinge', 'Alvesta', 'Växjo')
);  LIST分区变种

CREATE TABLE customers_3 (
first_name VARCHAR(25),
last_name VARCHAR(25),
street_1 VARCHAR(30),
street_2 VARCHAR(30),
city VARCHAR(15),
renewal DATE
)
PARTITION BY RANGE COLUMNS(renewal) (
    PARTITION pWeek_1 VALUES LESS THAN('2010-02-09'),
    PARTITION pWeek_2 VALUES LESS THAN('2010-02-15'),
    PARTITION pWeek_3 VALUES LESS THAN('2010-02-22'),
    PARTITION pWeek_4 VALUES LESS THAN('2010-03-01')
); RANGE分区变种

HASH分区：分区依据HASH主要用于确保在预定数量的分区之间均匀分布数据。使用范围或列表分区时，必须明确指定应将给定列值或一组列值存储在哪个分区中；使用散列分区时，只需要根据要散列的列值和要划分的分区表的分区数指定列值或表达式。
```
CREATE TABLE employees (
id INT NOT NULL,
fname VARCHAR(30),
lname VARCHAR(30),
hired DATE NOT NULL DEFAULT '1970-01-01',
separated DATE NOT NULL DEFAULT '9999-12-31',
job_code INT,
store_id INT
)
PARTITION BY HASH(store_id)
PARTITIONS 4;
```
KEY 分区：按KEY分区类似于按HASH分区，除了在HASH分区采用用户定义的表达式的情况下，用于KEY分区的哈希函数由MySQL服务器提供。NDB群集 MD5()用于此目的；对于使用其他存储引擎的表，服务器使用其自己的内部哈希功能。
```
CREATE TABLE k1 (
id INT NOT NULL PRIMARY KEY,
name VARCHAR(20)
)
PARTITION BY KEY()
PARTITIONS 2;  主键分区

CREATE TABLE k1 (
    id INT NOT NULL,
    name VARCHAR(20),
    UNIQUE KEY (id)
)
PARTITION BY KEY()
PARTITIONS 2; 唯一键分区
```

分区限制
- 因为需要根据分区列来确定数据所在分区，所以分区列必须作为查询条件，如果不使用分区列的查询条件，那么就无法进行分区过滤，Mysql最终会扫描所有分区。
- 所有分区都必须使用相同的存储引擎。
- 一张表最多只能有1024个分区，在5.7版本的时候可以支持8196个分区
- 分区表中无法对非分区列建立唯一索引（Unique Index）
- 分区表中无法使用外键
- 打开并锁住所有底层表的成本可能很高
- 维护分区的成本可能很高
- 分区的字段，必须是表上所有的唯一索引（或者主键索引）包含的字段的子集
- 分区键非NULL约束

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)