findinset mysql 性能_FindInSet性能优化

2023-05-16

背景：最近在mysql性能优化中遇到一个findinset()函数的性能问题：坦然说在数据量低的情况下，find_in_set的性能还是不错的，但是在30w左右开始严重劣化，到那时数据库结构已经定下来了，拆表的代价太大，而且带来很多冗余数据，找了很多方法还是不行，甚至我都开始考虑用ES来做了，但是自己搭一套ES集群实在麻烦，最终跑到隔壁组找了个专业dba，很快就解决了我的问题，看来专业的事情还是得交给专业的人来做哦！

findinset()

先介绍一下findinset吧！

不少数据表设计的时候使用一个字段来存储多对多关系，比如：

表 user中有一个字段叫 category, category存储的是 "1,3,9" 这样的类型的数据，实际上是category的id 用逗号分隔开来的

要查询一个用户属于id为2分类的用户可以这么写：

select * from `user` where find_in_set('2',`user`.`category`)；

具体find_in_set 的使用请参照手册：

http://dev.mysql.com/doc/refman/5.1/en/string-functions.html#function_find-in-set

虽然这样很好用，但问题是如果数据量大，又无法走索引，是很慢的。

取网友的一个例子：

user 表录入 100万的数据，同时建立 user_category 表，每个user有 3 个分类，那么category表里有300万条记录：

CREATE TABLE `user_category` ( `id` int(11) NOT NULL AUTO_INCREMENT, `user_id` int(11) DEFAULT NULL, `category_id` int(11) DEFAULT NULL, PRIMARY KEY (`id`), KEY `category_id` (`category_id`), KEY `user_id` (`tax_id`) ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT

现在比较一下在百万级的数据量上使用 join 链接外键查询和find_in_set查询的性能

1. 使用 find_in_set 查询，平均时间在2.2秒左右

SELECT SQL_NO_CACHE COUNT(*) FROM `user` WHERE FIND_IN_SET(65,category)

2. 使用left join ，使用了右表中的索引，平均时间在0.2秒左右

SELECT SQL_NO_CACHE COUNT(DISTINCT(`user`.id)) FROM `user` LEFT JOIN `user_category` ON `user`.`id`= `user_category`.`user_id` WHERE `user_category`.`category_id`=75

这是采用一种空间换时间的办法。但是如果实在项目后期，又无法改变表结构又该怎么办呢？

既然问题的核心在于：findinset函数无法走索引，那给他加上索引不久好了

那么，全文索引登场了。

全文索引

通过数值比较、范围过滤等就可以完成绝大多数我们需要的查询，但是，如果希望通过关键字的匹配来进行查询过滤，那么就需要基于相似度的查询，而不是原来的精确数值比较。全文索引就是为这种场景设计的。你可能会说，用 like + % 就可以实现模糊匹配了，为什么还要全文索引？like + % 在文本比较少时是合适的，但是对于大量的文本数据检索，是不可想象的。全文索引在大量的数据面前，能比 like + % 快 N 倍，速度不是一个数量级，但是全文索引可能存在精度问题。你可能没有注意过全文索引，不过至少应该对一种全文索引技术比较熟悉：各种的搜索引擎。虽然搜索引擎的索引对象是超大量的数据，并且通常其背后都不是关系型数据库，不过全文索引的基本原理是一样的.

关于全文索引的详情请参考这个：https://blog.csdn.net/mrzhouxiaofei/article/details/79940958

使用全文索引

和常用的模糊匹配使用 like + % 不同，全文索引有自己的语法格式，使用 match 和 against 关键字，比如:

select * from fulltext_test where match(content,tag) against('xxx xxx');

注意： match() 函数中指定的列必须和全文索引中指定的列完全相同，否则就会报错，无法使用全文索引，这是因为全文索引不会记录关键字来自哪一列。如果想要对某一列使用全文索引，请单独为该列创建全文索引。

如：首先创建测试表，插入测试数据

create table test (

id int(11) unsigned not null auto_increment,

content text not null,

primary key(id),

fulltext key content_index(content)

) engine=MyISAM default charset=utf8;

insert into test (content) values ('aaaa'),('bbbb'),('cccc');

按照全文索引的使用语法执行下面查询：

select * from test where match(content) against('aaa');

注意：

MySQL 中的全文索引，有两个变量，最小搜索长度和最大搜索长度，对于长度小于最小搜索长度和大于最大搜索长度的词语，都不会被索引。通俗点就是说，想对一个词语使用全文索引搜索，那么这个词语的长度必须在以上两个变量的区间内。

对比结果：

使用findinset需要10s左右，使用全文索引只需要0.3s左右

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

findinset mysql 性能_FindInSet性能优化的相关文章

MySQL 如何使用返回多行的 SELECT 子查询插入表？

MySQL 如何使用返回多行的 SELECT 子查询插入表 INSERT INTO Results People names VALUES SELECT d id FROM Names f JOIN People d ON d id f i
自定义 php 论坛 - 显示新的/未读的帖子

我自己使用 php 编写了一个自定义论坛脚本我决定不使用 phpbb 和其他工具因为我希望我所做的事情具有 100 的灵活性不过我遇到了一个问题如何向用户显示帖子是否是新的未读的我想到了两种解决方案 1 饼干 2 数据库我不想
使用 Python 开发时保护 MySQL 密码？

我正在编写一个使用本地托管的 MySQL 数据库的 Python 脚本该程序将以源代码形式提供这样 MySQL 密码就肉眼可见有没有好的办法来保护这个呢这个想法是为了防止一些顽皮的人查看源代码直接访问 MySQL 并做一些事情好
从本地 html/javascript 网站插入 mySQL 数据库

我正在尝试做什么我的程序的目的是插入数据local HTML JS网站变成online 非本地 mySQL数据库到目前为止我尝试过的我试图用来实现此目的的原始方法是让我的本地网站使用 javascript 通过在线发布数据PHP文件
如何使用Peewee查询多个相似的数据库？

我遇到了使用 Peewee 查询多个数据库的问题我有 2 个现有的 mysql 数据库让我们将它们命名为 A 和 B 结构相似因为它是两个 Bugzilla 数据库我使用 Pwiz 生成模型 modelsA py 和 modelsB
MySQL ALTER TABLE 挂起

我知道这个问题已经被问过好几次了但我的问题发生在我刚刚创建的表上它只有 10 列和 1 行因此与通常的挂起问题不同这不是具有大量数据的大表的情况但它仍然挂着这是我正在运行的 SQL ALTER TABLE db Search
Mysql：计算访问频率

我有这张桌子 CREATE OR REPLACE TABLE hits ip bigint page VARCHAR 256 agent VARCHAR 1000 date datetime 我想计算每个页面的 googlebot 访问频率
当我耗尽 bigint 生成的密钥时会发生什么？怎么处理呢？

我自己无法想象一个好的答案所以我想在这里问在我心里我总是想知道如果AUTO INCREMENT PRIMARY ID我的专栏MySQL表用完了吗举例来说我有一个有两列的表一个ID auto increment primary
解析错误：语法错误，意外的“”（T_ENCAPSED_AND_WHITESPACE）[重复]

这个问题在这里已经有答案了完整错误解析错误语法错误意外的 T ENCAPSED AND WHITESPACE 需要标识符 T STRING 或变量 T VARIABLE 或数字 T NUM STRING 它说错误出现在第 12 行
错误代码：1822（当数据类型匹配且具有复合键时）

得到一个错误代码 1822 添加外键约束失败丢失的引用表中约束 subject ibfk 1 的索引注册当尝试创建subject桌子问题是错误并没有出现在上一张表上student 数据类型相同并且定义了主键两者都会出现此错
Navicat utf8 不适用于 mysql 数据库

我目前正在尝试合并两个不同步的表达式引擎数据库之间的数据更改为此我选择使用 navicat 该网站在模板中大量使用希腊字符集当我在 phpmyadmin 中查看希腊语表字段数据时我按预期看到了希腊语字符当我将它们加载到 Navica
MySQL - 替换列中的字符

作为一个自学成才的新手我给自己制造了一个大问题在将数据插入数据库之前我将字符串中的撇号转换为双引号而不是 MySQL 实际需要的反斜杠和撇号在我的表增长到超过 200 000 行之前我认为最好立即纠正此问题所以我做了一些研究
PHP 数据库显示在具有不同锚标记的相同字段中

我四处寻找看看这是否可行但却空手而归首先这是我的代码 div style display none div ul li li li li li li ul
捕获动态表中 HTML 元素的值

我有从数据库生成的以下动态表
ORDER BY id 或 date_created 显示最新结果？

我有一个表实际上有几个我想首先从中获取最新条目的结果这是我的ORDER BY条款选项 date created INT 从不改变值 id 当然是INT AUTO INCRMENT 两列应同等地代表记录插入的顺序我自然会使用date
从 datagridview 选定的行更新 mysql 数据库

我有一个 datagridview 它在表单加载事件上加载 mysql 数据库表 t pi clients 并且我有另一个选项卡其中包含 t pi client 相应列的文本框它能够从 fullrowselect 模式获取数据到这些文本
子查询与连接

我重构了从另一家公司继承的应用程序的一个缓慢部分以使用内部联接而不是子查询例如 WHERE id IN SELECT id FROM 重构后的查询运行速度提高了约 100 倍 50 秒到 0 3 我预计会有改进但谁能解释为什么它如此剧
mysql计算唯一行值

TABLE quotation id clientid 1 25 2 25 3 25 4 25 5 26 如何查询有多少个不同的客户端TABLE quotation 我不希望重复的条目被计算多次我需要的答案是2 在 1 行中因为唯一的非
MySQL：查询中周数的周日期范围

我有一个看起来像这样的数据库表 id clock info 1 1262556754 some info 2 1262556230 some other info 3 1262556988 and another 4 1262555678
优化mysql中日期类型字段的查询

我目前准备了以下查询 select sum amount as total from incomes where YEAR date 2019 and MONTH date 07 and incomes deleted at is null

随机推荐

kubesphere_KubeSphere 容器平台 2.1 新功能解读 — Binary-to-Image

什么是 Binary to image Binary to image xff08 B2I xff09 是 KubeSphere 容器平台在 2 1 0 版本新增的功能 xff0c 旨在帮助开发者和运维在项目打包成 WAR JAR Bina
轻量级 C 语言网络库

今天给大家分享一款开源且只有1300 行代码的轻量级 C 语言网络库 xff1a Dyad dyad 是什么 xff1f Dyad 是一个基于 C 语言的异步网络库 xff0c 旨在轻量级可移植和易用它既可用于创建小型独立服务器 xf
vnc4server安装路径_如何知道linux 的vnc安装目录

2011 12 16 回答如何安装与配置linux vnc服务如果你的电脑是linux系统的话 xff0c 那么对于安装linux vnc服务就是很方便的了 xff0c 对于vnc是一种很优秀的远程控制工具 xff0c 所以安装与配置l
在ubuntu 14.04系统中安装cuda-7.5时编译samples文件，出现cannot find lnvcuvid 错误

这里只是对我引用的博客进行了修正解决方法 xff1a 1 修改 usr local cuda 7 5 samples common 下的findglib mk文件 xff0c 打开这个文件可用如下命令gedit findglib mk 进
matplotlib柱状图上方显示数据_光会Python爬虫是没有灵魂的，搭配上数据可视化才是极致...

数据可视化是数据科学家工作中的重要组成部分在项目的早期阶段 xff0c 你通常会进行探索性数据分析 xff08 Exploratory Data Analysis xff0c EDA xff09 以获取对数据的一些理解创建可视化方法确实
树莓派能否替代linux开发板,12 个可替代树莓派的单板机 | Linux 中国

你可以使用树莓派做很多事 xff0c 但它不是各种极客的最终解决方案一些人可能在寻找更便宜的开发板 xff0c 一些可能在寻找更强大的无论是哪种情况 xff0c 我们都有很多原因需要树莓派的替代品因此 xff0c 在这片文章里 xff
使用树莓派连接pixhawk飞控_Pixhawk无人机扩展教程(3)---树莓派安装Dronekit及读取飞控数据...

首先在树莓派根目录下新建一个名为test的文件夹用于存放测试代码文件和使用windows系统存放文件一样 xff0c 不过这是用命令操作 xff0c 新手可能不太习惯 xff0c 命令 xff1a mkdir xff0c 输入以下命令 x
python查看函数参数_python怎么查看帮助函数

python中的dir 函数 xff0c 可以在我们不了解某一函数或方法时 xff0c 帮我们查看这些方法或函数的用法及属性 dir 函数说明不带参数时 xff0c 返回当前范围内的变量方法和定义的类型列表 xff1b 带参数时 xff0
数据过拟合的解决方法

神经网络过拟合的解决方法 1 什么是过拟合过拟合 xff08 overfitting xff09 是指在模型参数拟合过程中的问题 xff0c 由于训练数据包含抽样误差 xff0c 训练时 xff0c 复杂的模型将抽样误差也考虑在内 xff
Python发送邮件smtplib.SMTP各报错问题的解决方法

经测试可用的发送邮件代码 xff1a import smtplib from email mime text import MIMEText 第三方 SMTP 服务 mail host 61 34 smtp 163 com 34 SMTP服
linux flash读写程序,Arm9 linux系统 flash读写问题

Arm9 linux系统 flash读写问题当前板子环境 xff1a a 16MiB Nor FLASH 默认从Nor Flash启动 b 32MiB Nand FLASH c 环境参数 Please stand by while reb
C语言蓝牙协议栈讲解,通俗易懂讲解蓝牙协议栈软件框架

BLE 协议架构总体上分成3块 xff0c 从下到上分别是 xff1a 控制器 Controller xff0c 主机 Host 和应用端 Apps xff1b 3者可以在同一芯片类实现 xff0c 也可以分不同芯片内实现 xff0c 控制
python中类的属性和方法-Python中类的属性、方法及内置方法

1 类的属性成员变量对象的创建创建对象的过程称之为实例化 xff0c 当一个对象被创建后 xff0c 包含三个方面的特性对象聚丙属性和方法 xff0c 句柄用于区分不同的对象 xff0c 对象的属性和方法 xff0c 与类中的成员变量
linux查看新接入设备,【入门】查询Jetson设备与开发环境版本的基础信息

刚入门的朋友 xff0c 可能觉得Jetson用Ubuntu系统 xff0c 不像Windows那么亲民 xff0c 那么容易获得一些硬件的相关信息 xff0c 有点碍手碍脚的因此我们收集一些您可能需要用到的指令 xff0c 就不用上网到
python可以查ip地址吗_Python爬虫练手小项目(1)获取、查询ip地址

正所谓饭饱思淫欲 xff0c 吃饱没事干 xff0c 不如一起来写写python代码把滑稽起因是最近在学习一本叫 Python网络数据采集的书其中有一章讲到用网络爬虫来使用API 虽然书上举的栗子要么就是API地址被墙 xff0c 要
mysql创建表插入随机数_在MySQL中的表格中插入随机数？

要插入随机数 xff0c 请使用RAND MySQL中的function 让我们首先创建一个表 mysql gt create table DemoTable Value int 使用插入命令在表中插入一些记录 mysql gt inser
Linux下apt文件夹,Ubuntu软件包管理空间不足，在/var/cache/apt/archives/中

在Ubuntu中安装软件时 xff0c 提示 xff1a E You don 39 t have enough free space in var cache apt archives 在 var cache apt archives 中没
手持gps坐标设置_[SWF] Visual-Wheel-GPS Localization轮速、视觉、GPS融合定位

接上一篇MSCKF Based Visual Wheel Odometry VWO MSCKF xff0c 这篇文章接入了GPS信息 xff0c 来实现全局定位实现方法参考了Guoquan Huang老师组里的论文 xff1a W Lee
Mysql服务器主从同步搭建

本文讲解在Win系统下搭建Mysql主服务从服务 xff0c 使用的Mysql版本是 xff1a Mysql5 7 在主从服务器搭建过程中 xff0c 需要严格遵守以下的步骤 xff0c 不然环境搭建可能出错 1 Win系统中安装Mysq
findinset mysql 性能_FindInSet性能优化

背景 xff1a 最近在mysql性能优化中遇到一个findinset 函数的性能问题 xff1a 坦然说在数据量低的情况下 xff0c find in set的性能还是不错的 xff0c 但是在30w左右开始严重劣化 xff0c 到那时数

findinset mysql 性能_FindInSet性能优化

findinset mysql 性能_FindInSet性能优化 的相关文章

随机推荐

热门标签

findinset mysql 性能_FindInSet性能优化的相关文章