MYSQL索引的使用

2023-11-02

1. 索引类型

索引可以提升查询速度,会影响where查询,以及order by排序。MySQL索引类型如下:

从索引存储结构划分:B Tree索引、Hash索引、FULLTEXT全文索引、R Tree索引

从应用层次划分:普通索引、唯一索引、主键索引、复合索引

从索引键值类型划分:主键索引、辅助索引(二级索引)

从数据存储和索引键值逻辑关系划分:聚集索引(聚簇索引)、非聚集索引(非聚簇索引)

1.1 普通索引

这是最基本的索引类型,基于普通字段建立的索引,没有任何限制。 创建普通索引的方法如下:

CREATE INDEX <索引的名字> ON tablename (字段名); 
ALTER TABLE tablename ADD INDEX [索引的名字] (字段名); 
CREATE TABLE tablename ( [...], INDEX [索引的名字] (字段名) );

1.2 唯一索引

与"普通索引"类似,不同的就是:索引字段的值必须唯一,但允许有空值 。在创建或修改表时追加唯一约束,就会自动创建对应的唯一索引。

#创建唯一索引
CREATE UNIQUE INDEX <索引的名字> ON tablename (字段名); 
ALTER TABLE tablename ADD UNIQUE INDEX [索引的名字] (字段名); 
CREATE TABLE tablename ( [...], UNIQUE [索引的名字] (字段名) ;

1.3 主键索引

它是一种特殊的唯一索引,不允许有空值。在创建或修改表时追加主键约束即可,每个表只能有一个主键。 创建主键索引的方法如下:

CREATE TABLE tablename ( [...], PRIMARY KEY (字段名) );
ALTER TABLE tablename ADD PRIMARY KEY (字段名);

1.4 复合索引

单一索引是指索引列为一列的情况,即新建索引的语句只实施在一列上;用户可以在多个列上建立索引,这种索引叫做组复合索引(组合索引)。复合索引可以代替多个单一索引,相比多个单一索引复合索引所需的开销更小。

索引同时有两个概念叫做窄索引和宽索引,窄索引是指索引列为1-2列的索引,宽索引也就是索引列超过2列的索引,设计索引的一个重要原则就是能用窄索引不用宽索引,因为窄索引往往比组合索引更有效。创建组合索引的方法如下:

CREATE INDEX <索引的名字> ON tablename (字段名1,字段名2...);
ALTER TABLE tablename ADD INDEX [索引的名字] (字段名1,字段名2...);
CREATE TABLE tablename ( [...], INDEX [索引的名字] (字段名1,字段名2...) );

复合索引使用注意事项:

何时使用复合索引,要根据where条件建索引,注意不要过多使用索引,过多使用会对更新操作效率有很大影响。

如果表已经建立了(col1,col2),就没有必要再单独建立(col1);如果现在有(col1)索引,如果查询需要col1和col2条件,可以建立(col1,col2)复合索引,对于查询有一定提高。

1.5 全文索引

查询操作在数据量比较少时,可以使用like模糊查询,但是对于大量的文本数据检索,效率很低。如果使用全文索引,查询速度会比like快很多倍。在MySQL5.6 以前的版本,只有MyISAM存储引擎支持全文索引,从MySQL 5.6开始MyISAM和InnoDB存储引擎均支持。 创建全文索引的方法如下:

CREATE FULLTEXT INDEX <索引的名字> ON tablename (字段名);
ALTER TABLE tablename ADD FULLTEXT [索引的名字] (字段名);
CREATE TABLE tablename ( [...], FULLTEXT KEY [索引的名字] (字段名) ;

和常用的like模糊查询不同,全文索引有自己的语法格式,使用 match 和 against 关键字,比如

select * from user where match(name) against('aaa');

1、全文索引使用注意事项:

2、全文索引必须在字符串、文本字段上建立。

3、全文索引字段值必须在最小字符和最大字符之间的才会有效。(innodb:3-84;myisam:4-84)

4、全文索引字段值要进行切词处理,按syntax字符进行切割,例如b+aaa,切分成b和aaa

全文索引匹配查询,默认使用的是等值匹配,例如a匹配a,不会匹配ab,ac。如果想匹配可以在布尔模式下搜索a*

SELECT * FROM USER WHERE MATCH(NAME) AGAINST('A*' IN BOOLEAN MODE);

2. 索引原理

MySQL官方对索引定义:是存储引擎用于快速查找记录的一种数据结构。需要额外开辟空间和数据维护工作。

索引是物理数据页存储,在数据文件中(InnoDB,ibd文件),利用数据页(page)存储。

索引可以加快检索速度,但是同时也会降低增删改操作速度,索引维护需要代价。

索引涉及的理论知识:二分查找法、Hash和B+Tree。

2.1 二分查找法

二分查找法也叫作折半查找法,它是在有序数组中查找指定数据的搜索算法。它的优点是等值查询、范围查询性能优秀,缺点是更新数据、新增数据、删除数据维护成本高。

首先定位left和right两个指针,计算(left+right)/2,判断除2后索引位置值与目标值的大小比对,索引位置值大于目标值就-1,right移动;如果小于目标值就+1,left移动,

举个例子,下面的有序数组有17 个值,查找的目标值是7,过程如下: 第一次查找:
在这里插入图片描述

第二次查找:
在这里插入图片描述

第三次查找:

第四次查找:

2.2 Hash结构

Hash底层实现是由Hash表来实现的,是根据键值 <key,value>存储数据的结构。非常适合根据key查找value值,也就是单个key查询,或者说等值查询。其结构如下所示:

从上面结构可以看出,Hash索引可以方便的提供等值查询,但是对于范围查询就需要全表扫描了。 Hash索引在MySQL中Hash结构主要应用在Memory原生的Hash索引 、InnoDB自适应哈希索引。InnoDB自适应哈希索引是为了提升查询效率,InnoDB存储引擎会监控表上各个索引页的查询,当InnoDB注意到某些索引值访问非常频繁时,会在内存中基于B+Tree索引再创建一个哈希索引,使得内存中的B+Tree 索引具备哈希索引的功能,即能够快速定值访问频繁访问的索引页。InnoDB自适应哈希索引:在使用Hash索引访问时,一次性查找就能定位数据,等值查询效率要优于B+Tree。自适应哈希索引的建立使得InnoDB存储引擎能自动根据索引页访问的频率和模式自动地为某些热点页建立哈希索引来加速访问。另外InnoDB自适应哈希索引的功能,用户只能选择开启或关闭功能,无法进行人工干涉。

SHOW ENGINE INNODB STATUS \G; SHOW VARIABLES LIKE '%innodb_adaptive%';

2.3 B+Tree结构

MySQL数据库索引采用的是B+Tree结构,在B-Tree结构上做了优化改造。 B-Tree结构:

索引值和data数据分布在整棵树结构中

每个节点可以存放多个索引值及对应的data数据

树节点中的多个索引值从左到右升序排列

B树的搜索:从根节点开始,对节点内的索引值序列采用二分法查找,如果命中就结束查找。没有命中会进入子节点重复查找过程,直到所对应的的节点指针为空,或已经是叶子节点了才结束。

B+Tree结构:

非叶子节点不存储data数据,只存储索引值,这样便于存储更多的索引值

叶子节点包含了所有的索引值和data数据

叶子节点用指针连接,提高区间的访问性能

相比B树,B+树进行范围查找时,只需要查找定位两个节点的索引值,然后利用叶子节点的指针进行遍历即可。而B树需要遍历范围内所有的节点和数据,显然B+Tree效率高。

2.4 聚簇索引和辅助索引

聚簇索引和非聚簇索引:B+Tree的叶子节点存放主键索引值和行记录就属于聚簇索引;如果索引值和行记录分开存放就属于非聚簇索引。

主键索引和辅助索引:B+Tree的叶子节点存放的是主键字段值就属于主键索引;如果存放的是非主键值就属于辅助索引(二级索引)。

在InnoDB引擎中,主键索引采用的就是聚簇索引结构存储。

2.4.1 聚簇索引(聚集索引)

聚簇索引是一种数据存储方式,InnoDB的聚簇索引就是按照主键顺序构建B+Tree结构。B+Tree的叶子节点就是行记录,行记录和主键值紧凑地存储在一起。 这也意味着 InnoDB的主键索引就是数据表本身,它按主键顺序存放了整张表的数据,占用的空间就是整个表数据量的大小。通常说的主键索引就是聚集索引。

InnoDB的表要求必须要有聚簇索引:

如果表定义了主键,则主键索引就是聚簇索引

如果表没有定义主键,则第一个非空unique列作为聚簇索引

否则InnoDB会从建一个隐藏的row-id作为聚簇索引

2.4.2 辅助索引

InnoDB辅助索引,也叫作二级索引,是根据索引列构建 B+Tree结构。但在 B+Tree 的叶子节点中只存了索引列和主键的信息。二级索引占用的空间会比聚簇索引小很多,通常创建辅助索引就是为了提升查询效率。一个表InnoDB只能创建一个聚簇索引,但可以创建多个辅助索引。

2.4.3 非聚簇索引

与InnoDB表存储不同,MyISAM数据表的索引文件和数据文件是分开的,被称为非聚簇索引结构。

3. 索引分析与优化

3.1 EXPLAIN

MySQL 提供了一个 EXPLAIN 命令,它可以对 SELECT 语句进行分析,并输出 SELECT执行的详细信息,供开发人员有针对性的优化。例如:

EXPLAIN SELECT * from user WHERE id < 3;

EXPLAIN 命令的输出内容大致如下:

1. select_type: 表示查询的类型。常用的值如下:

SIMPLE : 表示查询语句不包含子查询或union

PRIMARY:表示此查询是最外层的查询

UNION:表示此查询是UNION的第二个或后续的查询

DEPENDENT UNION:UNION中的第二个或后续的查询语句,使用了外面查询结果

UNION RESULT:UNION的结果

SUBQUERY:SELECT子查询语句

DEPENDENT SUBQUERY:SELECT子查询语句依赖外层查询的结果。

最常见的查询类型是SIMPLE,表示我们的查询没有子查询也没用到UNION查询。

2.type 表示存储引擎查询数据时采用的方式。比较重要的一个属性,通过它可以判断出查询是全表扫描还是基于索引的部分扫描。常用属性值如下,从上至下效率依次增强。

ALL:表示全表扫描,性能最差。

index:表示基于索引的全表扫描,先扫描索引再扫描全表数据。

range:表示使用索引范围查询。使用>、>=、<、<=、in等等。

ref:表示使用非唯一索引进行单值查询。

eq_ref:一般情况下出现在多表join查询,表示前面表的每一个记录,都只能匹配后面表的一行结果。

const:表示使用主键或唯一索引做等值查询,常量查询。

NULL:表示不用访问表,速度最快。

3. possible_keys 表示查询时能够使用到的索引。注意并不一定会真正使用,显示的是索引名称。 4. key 表示查询时真正使用到的索引,显示的是索引名称。 5. rows MySQL查询优化器会根据统计信息,估算SQL要查询到结果需要扫描多少行记录。原则上rows是越少效率越高,可以直观的了解到SQL效率高低。 6. key_len 表示查询使用了索引的字节数量。可以判断是否全部使用了组合索引。 key_len的计算规则如下:

字符串类型 字符串长度跟字符集有关:latin1=1、gbk=2、utf8=3、utf8mb4=4 char(n):n*字符集长度
varchar(n):n * 字符集长度 + 2字节

数值类型 TINYINT:1个字节 SMALLINT:2个字节 MEDIUMINT:3个字节 INT、FLOAT:4个字节
BIGINT、DOUBLE:8个字节

时间类型 DATE:3个字节 TIMESTAMP:4个字节 DATETIME:8个字节

字段属性 NULL属性占用1个字节,如果一个字段设置了NOT NULL,则没有此项。

7. Extra Extra表示很多额外的信息,各种操作会在Extra提示相关信息,常见几种如下:

Using where 表示查询需要通过索引回表查询数据。

Using index 表示查询需要通过索引,索引就可以满足所需数据。

Using filesort 表示查询出来的结果需要额外排序,数据量小在内存,大的话在磁盘,因此有Using filesort建议优化。

Using temprorary 查询使用到了临时表,一般出现于去重、分组等操作。

3.2 回表查询

InnoDB索引有聚簇索引和辅助索引。聚簇索引的叶子节点存储行记录,InnoDB必须要有,且只有一个。辅助索引的叶子节点存储的是主键值和索引字段值,通过辅助索引无法直接定位行记录,通常情况下,需要扫码两遍索引树。先通过辅助索引定位主键值,然后再通过聚簇索引定位行记录,这就叫做回表查询,它的性能比扫一遍索引树低。

总结:通过索引查询主键值,然后再去聚簇索引查询记录信息

3.3 覆盖索引

在MySQL官网,类似的说法出现在explain查询计划优化章节,即explain的输出结果Extra字段为Using index时,能够触发索引覆盖。

只需要在一棵索引树上就能获取SQL所需的所有列数据,无需回表,速度更快,这就叫做索引覆盖。实现索引覆盖最常见的方法就是:将被查询的字段,建立到组合索引。

3.4 最左前缀原则

复合索引使用时遵循最左前缀原则,最左前缀顾名思义,就是最左优先,即查询中使用到最左边的列,那么查询就会使用到索引,如果从索引的第二列开始查找,索引将失效。

3.5 LIKE查询

面试题:MySQL在使用like模糊查询时,索引能不能起作用?
回答:MySQL在使用Like模糊查询时,索引是可以被使用的,只有把%字符写在后面才会使用到索引,相当于范围查询,最左匹配原则。

#不起作用
SELECT * FROM USER WHERE NAME LIKE '%o%';
#起作用
SELECT * FROM USER WHERE NAME LIKE 'o%';
#不起作用
SELECT * FROM USER WHERE NAME LIKE '%o';
3.6 NULL查询

面试题:如果MySQL表的某一列含有NULL值,那么包含该列的索引是否有效?
对MySQL来说,NULL是一个特殊的值,从概念上讲,NULL意味着“一个未知值”,它的处理方式与其他值有些不同。比如:不能使用=,<,>这样的运算符,对NULL做算术运算的结果都是NULL,count时不会包括NULL行等,NULL比空字符串需要更多的存储空间等。

“NULL columns require additional space in the row to record whether
their values are NULL. For MyISAM tables, each NULL column takes one
bit extra, rounded up to the nearest byte.”

NULL列需要增加额外空间来记录其值是否为NULL。对于MyISAM表,每一个空列额外占用一位,四舍五入到最接近的字节。

虽然MySQL可以在含有NULL的列上使用索引,但NULL和其他数据还是有区别的,不建议列上允许为 NULL。最好设置NOT NULL,并给一个默认值,比如0和 ‘’空字符串等,如果是datetime类型,也可以设置系统当前时间或某个固定的特殊值,例如’1970-01-01 00:00:00’。

3.7 索引与排序

MySQL查询支持filesort和index两种方式的排序,filesort是先把结果查出,然后在缓存或磁盘进行排序操作,效率较低。使用index是指利用索引自动实现排序,不需另做排序操作,效率会比较高。

filesort有两种排序算法:
双路排序:需要两次磁盘扫描读取,最终得到用户数据。第一次将排序字段读取出来,然后排序;第二次去读取其他字段数据。
单路排序:从磁盘查询所需的所有列数据,然后在内存排序将结果返回。如果查询数据超出缓存

sort_buffer,会导致多次磁盘读取操作,并创建临时表,最后产生了多次IO,反而会增加负担。

解决方案:少使用select *;增加sort_buffer_size容量和max_length_for_sort_data容量。

如果我们Explain分析SQL,结果中Extra属性显示Using filesort,表示使用了filesort排序方式,需要优化。如果Extra属性显示Using index时,表示覆盖索引,也表示所有操作在索引上完成,也可以使用index排序方式,建议尽可能采用覆盖索引。

以下几种情况,会使用index方式的排序。
ORDER BY使用索引排序
#对应(id)、(id,name)索引有效,WHERE子句+ORDER BY子句索引列组合满足索引最左前列
EXPLAIN SELECT ID FROM USER ORDER BY ID;

#对应 (age,name)索引,以下几种情况,会使用filesort方式的排序。
EXPLAIN SELECT ID FROM USER WHERE AGE=18 ORDER BY NAME;
ORDER BY使用filesort排序
#对索引列同时使用了ASC和DESC,对应 (AGE,NAME)索引,只能filesort排序
EXPLAIN SELECT ID FROM USER ORDER BY AGE ASC,NAME DESC;

#WHERE子句和ORDER BY子句满足最左前缀,但WHERE子句使用了范围查询(例如>、<、in等),索引中断,对应 (AGE,NAME)索引,只能filesort排序
EXPLAIN SELECT ID FROM USER WHERE AGE>10 ORDER BY NAME; 

#ORDER BY或者WHERE+ORDER BY索引列没有满足索引最左前列,对应(AGE,NAME)索引,可以使用(NAME)或(NAME,AGE)索引
EXPLAIN SELECT ID FROM USER ORDER BY NAME; 

#使用了不同的索引,MySQL每次只采用一个索引,ORDER BY涉及了两个索引,对应 (NAME)、(AGE)索引,可以建立符合索引(NAME,AGE)
EXPLAIN SELECT ID FROM USER ORDER BY NAME,AGE; 

#WHERE子句与ORDER BY子句,使用了不同的索引,对应 (NAME)、(AGE)索引,可以建立符合索引(NAME,AGE)
EXPLAIN SELECT ID FROM USER WHERE NAME='TOM' ORDER BY AGE; 

#WHERE子句或者ORDER BY子句中索引列使用了表达式,包括函数表达式,对应(AGE)索引,可以使用5.7的虚拟列索引
EXPLAIN SELECT ID FROM USER ORDER BY ABS(AGE);

4. 查询优化

4.1 慢查询定位

开启慢查询日志 查看 MySQL 数据库是否开启了慢查询日志和慢查询日志文件的存储位置的命令如下:

SHOW VARIABLES LIKE 'slow_query_log%'

通过如下命令开启慢查询日志:

SET GLOBAL SLOW_QUERY_LOG = ON;
SET GLOBAL SLOW_QUERY_LOG_FILE = 'OAK-slow.log';
SET GLOBAL LOG_QUERIES_NOT_USING_INDEXES = ON;
SET LONG_QUERY_TIME = 10;

long_query_time:指定慢查询的阀值,单位秒。如果SQL执行时间超过阀值,就属于慢查询记录到日志文件中。

log_queries_not_using_indexes:表示会记录没有使用索引的查询SQL。
前提是slow_query_log的值为ON,否则不会奏效。

查看慢查询日志

文本方式查看 直接使用文本编辑器打开slow.log日志即可。
在这里插入图片描述

time:日志记录的时间
User@Host:执行的用户及主机
Query_time:执行的时间 Lock_time:锁表时间
Rows_sent:发送给请求方的记录数,结果数量
Rows_examined:语句扫描的记录条数 SET
timestamp:语句执行的时间点
select…:执行的具体的SQL语句

使用mysqldumpslow查看 MySQL 提供了一个慢查询日志分析工具mysqldumpslow,可以通过该工具分析慢查询日志内容。
在 MySQL bin目录下执行下面命令可以查看该使用格式。

perl mysqldumpslow.pl --help
# 运行如下命令查看慢查询日志信息:
perl mysqldumpslow.pl -t 5 -s at C:\ProgramData\MySQL\Data\OAK-slow.log

除了使用mysqldumpslow工具,也可以使用第三方分析工具,比如pt-query-digest、mysqlsla等。

4.2 慢查询优化

4.2.1 索引和慢查询

如何判断是否为慢查询?
MySQL判断一条语句是否为慢查询语句,主要依据SQL语句的执行时间,它把当前语句的执行时间跟long_query_time参数做比较,如果语句的执行时间 > long_query_time,就会把这条执行语句记录到慢查询日志里面。long_query_time参数的默认值是 10s,该参数值可以根据自己的业务需要进行调整。

如何判断是否应用了索引? SQL语句是否使用了索引,可根据SQL语句执行过程中有没有用到表的索引,可通过explain命令分析查看,检查结果中的 key 值,是否为NULL。

应用了索引是否一定快? 看下面的语句:

SELECT * FROM USER WHERE ID>0;

虽然使用了索引,但是还是从主键索引的最左边的叶节点开始向右扫描整个索引树,进行了全表扫描,此时索引就失去了意义。而像 select * from user where id = 2; 这样的语句,才是我们平时说的使用了索引。它表示的意思是,我们使用了索引的快速搜索功能,并且有效地减少了扫描行数。

查询是否使用索引,只是表示一个SQL语句的执行过程;而是否为慢查询,是由它执行的时间决定的,也就是说是否使用了索引和是否是慢查询两者之间没有必然的联系。我们在使用索引时,不要只关注是否起作用,应该关心索引是否减少了查询扫描的数据行数,如果扫描行数减少了,效率才会得到提升。对于一个大表,不止要创建索引,还要考虑索引过滤性,过滤性好,执行速度才会快。

4.2.2 提高索引过滤性

假如有一个5000万记录的用户表,通过sex='男’索引过滤后,还需要定位3000万,SQL执行速度也不会很快。其实这个问题涉及到索引的过滤性,比如1万条记录利用索引过滤后定位10条、100条、1000条,那他们过滤性是不同的。索引过滤性与索引字段、表的数据量、表设计结构都有关系。

案例:
表:student
字段:id,name,sex,age
造数据:insert into student (name,sex,age) select name,sex,age from student;
SQL案例:select * from student where age=18 and name like ‘张%’;(全表扫描)

优化1

# 追加NAME索引
ALTER TABLE STUDENT ADD INDEX(NAME);

优化2

//追加AGE,NAME索引
ALTER TABLE STUDENT ADD INDEX(AGE,NAME);

优化3
可以看到,index condition pushdown 优化的效果还是很不错的。再进一步优化,我们可以把名 字的第一个字和年龄做一个联合索引,这里可以使用 MySQL 5.7 引入的虚拟列来实现。

#为user表添加FIRST_NAME虚拟列,以及联合索引(FIRST_NAME,AGE),哪一个过滤效率高可以放在前面
ALTER TABLE STUDENT ADD FIRST_NAME VARCHAR(2) GENERATED ALWAYS AS (LEFT(NAME, 1)), ADD INDEX(FIRST_NAME, AGE);

#查询虚拟列,就不用范围查询效果了
EXPLAIN SELECT * FROM STUDENT WHERE FIRST_NAME='张' AND AGE=18;

慢查询原因总结:
全表扫描:explain分析type属性all ;
全索引扫描:explain分析type属性index;
索引过滤性不好:靠索引字段选型、数据量和状态、表设计 频繁的回表查询开销:
尽量少用select *,使用覆盖索引,减少回表查询,(查询的字段就是索引字段,可以直接返回索引,无需通过索引去查询表中结果);

4.3 分页查询优化

4.3.1 一般性分页

一般的分页查询使用简单的 limit 子句就可以实现。limit格式如下:

SELECT * FROM 表名 LIMIT [offset,] rows

第一个参数指定第一个返回记录行的偏移量,注意从0开始; 第二个参数指定返回记录行的最大数目;如果只给定一个参数,它表示返回最大的记录行数目;

如果偏移量固定,返回记录量不同,对执行时间有什么影响?

SELECT * FROM USER LIMIT 10000,1;
SELECT * FROM USER LIMIT 10000,10;
SELECT * FROM USER LIMIT 10000,100;
SELECT * FROM USER LIMIT 10000,1000;
SELECT * FROM USER LIMIT 10000,10000;

结果:在查询记录时,返回记录量低于100条,查询时间基本没有变化,差距不大。随着查询记录量越大,所花费的时间也会越来越多。

如果返回记录数固定,查询偏移量变化,对执行时间有什么影响?

SELECT * FROM USER LIMIT 1,100;
SELECT * FROM USER LIMIT 10,100;
SELECT * FROM USER LIMIT 100,100;
SELECT * FROM USER LIMIT 1000,100;
SELECT * FROM USER LIMIT 10000,100;

结果:在查询记录时,如果查询记录量相同,偏移量超过100后就开始随着偏移量增大,查询时间急剧的增加。(这种分页查询机制,每次都会从数据库第一条记录开始扫描,越往后查询越慢,而且查询的数据越多,也会拖慢总查询速度。)

4.3.2 分页优化方案

第一步:利用覆盖索引优化

SELECT * FROM USER LIMIT 10000,100;
SELECT ID FROM USER LIMIT 10000,100;

第二步:利用子查询优化

SELECT * FROM USER LIMIT 10000,100;
SELECT * FROM USER WHERE ID>= (SELECT ID FROM USER LIMIT 10000,1) LIMIT 100;

原因:使用了id做主键比较(id>=),并且子查询使用了覆盖索引进行优化。

5 建立索引的几大原则

5.1 选择唯一性索引

唯一性索引的值是唯一的,可以更快速的通过该索引来确定某条记录。例如,学生表中学号是具有唯一性的字段。为该字段建立唯一性索引可以很快的确定某个学生的信息。如果使用姓名的话,可能存在同名现象,从而降低查询速度。

5.2为经常需要排序、分组和联合操作的字段建立索引,减少filesort排序

经常需要ORDER BY、GROUP BY、DISTINCT和UNION等操作的字段,排序操作会浪费很多时间。如果为其建立索引,可以有效地避免排序操作。

5.3 为常作为查询条件的字段建立索引

如果某个字段经常用来做查询条件,那么该字段的查询速度会影响整个表的查询速度。因此,为这样的字段建立索引,可以提高整个表的查询速度。

5.4 限制索引的数目

索引的数目不是越多越好。每个索引都需要占用磁盘空间,索引越多,需要的磁盘空间就越大。修改表时,对索引的重构和更新很麻烦。越多的索引,会使更新表变得很浪费时间。

5.5 尽量使用数据量少的索引,可以使用虚拟列或全文索引

如果索引的值很长,那么查询的速度会受到影响。例如,对一个CHAR(100)类型的字段进行全文检索需要的时间肯定要比对CHAR(10)类型的字段需要的时间要多。

5.6 尽量使用前缀来索引

如果索引字段的值很长,最好使用值的前缀来索引。例如,TEXT和BLOG类型的字段,进行全文检索会很浪费时间。如果只检索字段的前面的若干个字符,这样可以提高检索速度。

5.7 删除不再使用或者很少使用的索引

表中的数据被大量更新,或者数据的使用方式被改变后,原有的一些索引可能不再需要。数据库管理员应当定期找出这些索引,将它们删除,从而减少索引对更新操作的影响。

5.8 最左前缀匹配原则,非常重要的原则。

mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,比如a 1=”” and=”” b=”2” c=”“> 3 and d = 4 如果建立(a,b,c,d)顺序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引则都可以用到,a,b,d的顺序可以任意调整。

5.9 =和in可以乱序。

比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意顺序,mysql的查询优化器会帮你优化成索引可以识别的形式

5.10 尽量选择区分度高的列作为索引。

区分度的公式是count(distinct col)/count(*),表示字段不重复的比例,比例越大我们扫描的记录数越少,唯一键的区分度是1,而一些状态、性别字段可能在大数据面前区分度就是0,那可能有人会问,这个比例有什么经验值吗?使用场景不同,这个值也很难确定,一般需要join的字段我们都要求是0.1以上,即平均1条扫描10条记录

5.11 索引列不能参与计算,保持列“干净”。

比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,原因很简单,b+树中存的都是数据表中的字段值,但进行检索时,需要把所有元素都应用函数才能比较,显然成本太大。所以语句应该写成create_time = unix_timestamp(’2014-05-29’);

5.12 尽量的扩展索引,不要新建索引。

比如表中已经有a的索引,现在要加(a,b)的索引,那么只需要修改原来的索引即可

注意:选择索引的最终目的是为了使查询的速度变快。上面给出的原则是最基本的准则,但不能拘泥于上面的准则。读者要在以后的学习和工作中进行不断的实践。根据应用的实际情况进行分析和判断,选择最合适的索引方式。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MYSQL索引的使用 的相关文章

  • Java 小程序在 Mac 上闪烁

    这个问题很奇怪 问题并非在每个平台上都会发生 我在使用 MacOSX 的 Google Chrome 中出现了这种情况 但在 Safari 中却没有出现这种情况 对于使用 Windows 的朋友来说 在 Google Chrome 上运行得
  • 尚未为此带有 SQL Server 的 DbContext .NET Core 配置数据库提供程序

    我一直用这个把头撞在墙上 并且一直在谷歌上搜索无济于事 我刚刚开始一个新的 ASP NET Core MVC 项目 我已将这两个包安装 更新为 2 2 0 Microsoft EntityFrameworkCore SqlServer Mi
  • 获取Android库中的上下文

    我正在编写一个 Android 应用程序 它的一些功能封装在内部库中 但是 要使此功能发挥作用 库需要一个应用程序上下文的实例 为图书馆提供这种上下文的最佳方式是什么 我看到了一些选择 但没有一个有吸引力 Have my library c
  • 使用 kryo 注册课程的策略

    我最近发现了 kryonet 库 它非常棒并且非常适合我的需求 然而 我遇到的一个问题是制定一种好的策略来注册所有可以转移的类 我知道我可以在每个对象中编写一个静态方法 该方法将返回它使用的所有类的列表 但我真的不想这样做 为了我自己的时间
  • 如何避免Eclipse在将类名放在注释中时导入类,以便checkstyle稍后不会抱怨?

    有时我将类名放在方法或类的注释中只是为了引用 但是 Eclipse 会自动执行导入并在文件中留下导入语句 这会导致稍后出现 未使用的导入 检查样式错误 当我在注释中输入类名时 是否可以更改一些配置以避免 Eclipse 自动导入 人们不同意
  • 选择两列中两个日期之间的记录

    如何选择两列中两个日期之间的记录 Select From MyTable Where 2009 09 25 is between ColumnDateFrom to ColumnDateTo 我有一个日期 2009 09 25 我喜欢选择
  • 对对象集合进行排序[重复]

    这个问题在这里已经有答案了 如果我有一个简单的字符串列表 List
  • 如何在Netbeans中设置JList的ListModel?

    我在 Netbeans IDE 的帮助下设计了一个 Swing GUI 该 GUI 包含一个 JList 默认情况下 它使用 QAbstractListModel 将其作为 JList 构造函数中的参数传递以创建该 JList 我想在 Ne
  • 如何在 Eclipse 中获得完全限定的类名?

    有没有一种快速方法可以在 Eclipse 中单击 Java 类并获取其完全限定名称 或将其复制到剪贴板 2016年6月29日编辑 正如 Jeff 所指出的 您只需要执行以下第二步 1 Double click on the class na
  • 从 CLI 部署 Maven 项目?

    在 IDE 中构建并运行良好 cd home thufir NetBeansProjects HelloMaven JAVA HOME usr lib jvm java 8 openjdk amd64 home thufir local s
  • 错误膨胀类 android.support.design.widget.NavigationView [启动时崩溃]

    该应用程序应该有一个导航抽屉 可以从左侧拉出并显示各种活动 但是一旦将导航栏添加到 XML Activity homescreen 文档中 应用程序一启动就会崩溃 主屏幕 java package com t99sdevelopment c
  • jDBI中如何进行内查询?

    我怎样才能在 jDBI 中执行这样的事情 SqlQuery select id from foo where name in
  • Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps

    我在 Docker 容器中运行 Janusgraph 0 3 2 并尝试使用运行 HBase 1 4 9 的 AWS EMR 集群作为存储后端 我可以运行 gremlin server sh 但如果我尝试保存某些内容 我会得到粘贴在下面的堆
  • 无法连接到docker中的elasticsearch容器

    我正在尝试使用 docker 的官方 elasticsearch 镜像 我遵循了本指南 https www elastic co guide en elasticsearch reference current docker html但是当
  • Spring - 如何在不匹配列名的情况下使用 BeanPropertyRowMapper

    我正在开发一个应用程序 该应用程序已使用行映射器从纯 JDBC 转换为 Spring 模板 我遇到的问题是数据库中的列与属性名称不匹配 这阻止我使用BeanPropertyRowMapper容易地 我看到一些关于在查询中使用别名的帖子 这会
  • 使用 Java 8 Spring 4 + MyBatis 集成问题

    使用 Java 8 1 8 0 60 Spring 4 2 1 和 MyBatis 3 3 0 时遇到以下异常 Sep 29 2015 11 02 58 AM org springframework context annotation A
  • java Web应用程序中的日期转换

    String date1 13 03 2014 16 56 46 AEDT SimpleDateFormat sdf new SimpleDateFormat dd MM yyyy HH mm ss z sdf setTimeZone Ti
  • SQL Server查询麻烦,多对多关系

    不知道如何用一行字来表达这个问题 对标题表示歉意 我的数据库中有3个表 例如 Shop Item 商店库存 Shop 和 Item 具有多对多关系 因此 ShopStock 表将它们链接起来 ShopStock 中的字段是 ID ShopI
  • 在 Django shell 会话期间获取 SQL 查询计数

    有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息 例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显 您可
  • SQLite 中的累积求和值

    我正在尝试在 SQLite 中执行值的累积和 我最初只需要对一列求和并获得代码 SELECT t MyColumn SELECT Sum r KeyColumn1 FROM MyTable as r WHERE r Date lt t Da

随机推荐

  • elementPlus学习(持续更新)

    ElementPlus 前言 form表单 校验 以下内容不写函数字样的都是属性 prop rules show message inline message status icon require asterisk position sc
  • PHY芯片的使用(一)之基本概念讲解(MII相关)2

    今天想和大家交流一下MAC和PHY之间的接口MII MII Media Independent Interface 是介质无关接口 MII接口定义了在MAC层和物理层之间传送数据和控制状态等信息的接口 它是10M和100M兼容的接口 经过扩
  • 数字预失真技术基本原理

    功率放大器在通信系统中是一个及其重要的组件 其主要功能是将调制后的频带信号进行功率放大 使其满足发送端天线发射所需要的发射功率需求 并保证系统接收端可以采集到功率较大的信号 满足通信信道所要求的功率需求 而随着射频功率放大器发射功率的不断提
  • React - Mobx [learning......]

    import observer from mobx react Mobx安装 learning
  • 字符串中找出连续最长的数字串

    1 题目描述 读入一个字符串str 输出字符串str中的连续最长的数字串 2 输入输出示例 给一个输入abc123nj5nk88990wze这里面最长的数字串是88990 并将其输出 3 思路分析 1 首先输入是一个字符串 我们在处理的时候
  • How to Parse XML in C++

    hyperlink
  • 百度地图定位

    1 审请key 2 看demo 注意 定册定位Serveice 不同的demo使用时不一样 因为jar包不同
  • xml 模块(了解)

    本文来自 https www cnblogs com yang1333 articles 12609714 html 3177870913 1 XML文档模板
  • 蓝桥杯真题:寻找2020

    原题里边其实是一个300 300的序列 读进来之后对每一个点作为起点判断一遍四种情况就好了 代码如下所示 include
  • 缓存那些事

    前言 一般而言 现在互联网应用 网站或App 的整体流程 可以概括如图1所示 用户请求从界面 浏览器或App界面 到网络转发 应用服务再到存储 数据库或文件系统 然后返回到界面呈现内容 随着互联网的普及 内容信息越来越复杂 用户数和访问量越
  • 联想计算机游戏本,2021十大游戏本排行(最佳游戏笔记本电脑推荐)

    第五名 HP 惠普 傲慢Omen X 推荐理由 惠普的轻薄办公笔记本做得非常出色 在美国 消费者报告 中获得了非常高的评价 其机型占了CR推荐中的1 5左右 其游戏本也不遑多让 旗下的Omen X 暗影精灵系列口碑都相当不错 Omen 17
  • ARCore之路:HelloAR项目例子分析

    项目效果 通过相机扫描环境中的平面 它会生成上图中的白色网格 可通过点击白色网格来生成三维模型 下图是项目中的节点 下面将从挑选一些节点来分析 其中 Environmental Light 节点是灯光 EventSystem节点是控制输入输
  • wandb在pytorch lightning中的使用

    文章目录 使用前提 使用解析 初始化 模型超参数保存 记录其他配置参数 记录梯度 参数直方图和模型拓扑 记录metric 记录metric的最小值 最大值 记录图像 文本等 记录图像 记录文本 记录表格数据 在多GPU的情况下使用pytor
  • Unity Hub无法登陆的两种终极解决办法

    最近换了个电脑 需要重装Unity 然后unity hub 怎么都无法登陆 登陆不了就不能激活personal license 试了很多次 包括unity hub 2 5 8 和unity hub 3 3都不行 真的是很崩溃 因为是公司的电
  • X86cpu运行的什么格式代码? ELF还是Bin ?

    ELF文件是一种格式 我们使用gcc编译出来的 o文件 和链接后生成的 out文件一般都是ELF格式的文件 Bin文件一般指的是连接器ld b binary链接出来的或者用objcopy b抽出来的文件 ELF和Bin文件都是二进制文件 b
  • 关系型数据库-MySQL:连接数据库

    连接数据库常用选项 h 指定服务器地址 u 指定登录用户名 P 指定服务端口号 S 指定套接字路径 D 指定要登录的数据库 C 数据压缩传输 e 非交互式执行sql语句 E 查询结果纵向显示 等同于mysql提示符下的 G 1 交互式登录本
  • python为什么要创建虚拟环境

    最近在学习新的知识 需要用到tensorflow 我在网上寻找安装教程 遇到了很多疑问 大部分的教程都说需要开启虚拟幻境 我不理解为什么需要虚拟环境 后来慢慢理解 原来在不同的项目中 需要使用到不同版本的python解释器之类的 不能每次都
  • spark集群启动后WorkerUI界面看不到Workers解决

    前话 我有三台机分别是 192 168 238 129 master 192 168 238 130 slave2 192 168 238 131 slave1 spark 版本是2 0 2 hosts文件已经配置上面参数 最近在搭spar
  • 好的vue框架-模板

    最近发现一个好的vue模板 1 访问地址 Vue Element Adminhttps panjiachen github io vue element admin dashboard 2 github地址 GitHub PanJiaChe
  • MYSQL索引的使用

    1 索引类型 索引可以提升查询速度 会影响where查询 以及order by排序 MySQL索引类型如下 从索引存储结构划分 B Tree索引 Hash索引 FULLTEXT全文索引 R Tree索引 从应用层次划分 普通索引 唯一索引