如何优化查找相关性的极其缓慢的 MySQL 查询

2024-03-08

我有一个非常慢（通常接近 60 秒）的 MySQL 查询，它试图找到用户对一项民意调查的投票方式与他们对所有先前民意调查的投票方式之间的相关性。

基本上，我们收集在给定民意调查中投票给某一特定选项的每个人的用户 ID。

然后，我们查看该小组如何在之前的每次民意调查中投票，并将这些结果与每个人（不仅仅是该小组）对该民意调查的投票方式进行比较。子组结果与总结果之间的差异就是偏差，该查询按偏差排序以确定最强的相关性。

查询有点混乱：

(SELECT p_id as poll_id, o_id AS option_id, description, optCount AS option_count, subgroup_percent, total_percent, ABS(total_percent - subgroup_percent) AS deviation
FROM(
   SELECT poll_id AS p_id, 
       option_id AS o_id, 
       (SELECT description FROM `option` WHERE id = o_id) AS description,
       COUNT(*) AS optCount, 
       (SELECT COUNT(*) FROM response INNER JOIN user_ids_122 ON response.user_id = user_ids_122.user_id WHERE option_id = o_id ) / 
       (SELECT COUNT(*) FROM response INNER JOIN user_ids_122 ON response.user_id = user_ids_122.user_id WHERE poll_id = p_id) AS subgroup_percent,
       (SELECT COUNT(*) FROM response WHERE option_id = o_id) / 
       (SELECT COUNT(*) FROM response WHERE poll_id = p_id) AS total_percent
   FROM response 
   INNER JOIN user_ids_122 ON response.user_id = user_ids_122.user_id 
   WHERE poll_id < '61'
   GROUP BY option_id DESC
   ) AS derived_table_122
)
ORDER BY deviation DESC, option_count DESC

请注意，user_ids_122 是之前创建的临时表，其中包含投票给选项 ID 122 的所有用户的 ID。

“响应”表大约有 65,000 行，“用户”表大约有 7,000 行，“选项”表大约有 130 行。

UPDATE:

这是解释表...

1   PRIMARY     <derived2>  ALL     NULL    NULL    NULL    NULL    121     Using filesort
2   DERIVED     user_ids_122    ALL     NULL    NULL    NULL    NULL    74  Using temporary; Using filesort
2   DERIVED     response    ref     poll_id,user_id     user_id     4   correlated.user_ids_122.user_id     780     Using where
7   DEPENDENT SUBQUERY  response    ref     poll_id     poll_id     4   func    7800    Using index
6   DEPENDENT SUBQUERY  response    ref     option_id   option_id   4   func    7800    Using index
5   DEPENDENT SUBQUERY  user_ids_122    ALL     NULL    NULL    NULL    NULL    74   
5   DEPENDENT SUBQUERY  response    ref     poll_id,user_id     poll_id     4   func    7800    Using where
4   DEPENDENT SUBQUERY  user_ids_122    ALL     NULL    NULL    NULL    NULL    74   
4   DEPENDENT SUBQUERY  response    ref     user_id,option_id   user_id     4   correlated.user_ids_122.user_id     780     Using where
3   DEPENDENT SUBQUERY  option  eq_ref  PRIMARY     PRIMARY     4   func    1

更新2：

“响应”表中的每一行如下所示：

id (INT)   poll_id (INT)   user_id (INT)   option_id (INT)   created (DATETIME)
7          7               1               14                2011-03-17 09:25:10

“选项”表中的每一行如下所示：

id (INT)   poll_id (INT)   text (TEXT)     description (TEXT)
14         7               No              people who dislike country music

“user”表中的每一行如下所示：

id (INT)   email (TEXT)         created (DATETIME)
1          [email protected] /cdn-cgi/l/email-protection     2011-02-15 11:16:03

3件事：

您正在重新计算同样的事情无数次（实际上所有这些都仅取决于许多行相同的一些参数）
聚合在大块（JOIN）中比在小位（子查询）中更有效
MySQL 的子查询速度非常慢。

因此，当您计算“按 option_id 计算的投票数”时（需要扫描大表），然后你需要计算“poll_id 的投票数”，好吧，不要再次启动大表，只需使用之前的结果即可！

您可以通过 ROLLUP 来做到这一点。

这是一个在 Postgres 上运行的查询，可以满足您的需要。

为了让 MySQL 做到这一点，您需要用临时表替换所有“WITH foo AS (SELECT...)”语句。这很容易。 MySQL 内存临时表速度很快，不要害怕使用它们，因为这将允许您重用前面步骤的结果并节省大量计算。

我已经生成了随机测试数据，似乎有效。 0.3秒内执行...

WITH 
-- users of interest : target group
uids AS (
    SELECT DISTINCT user_id 
        FROM    options 
        JOIN    responses USING (option_id)
        WHERE   poll_id=22
    ),
-- votes of everyone and target group
votes AS (
    SELECT poll_id, option_id, sum(all_votes) AS all_votes, sum(target_votes) AS target_votes
        FROM (
            SELECT option_id, count(*) AS all_votes, count(uids.user_id) AS target_votes
                FROM        responses 
                LEFT JOIN   uids USING (user_id)
                GROUP BY option_id
        ) v
        JOIN    options     USING (option_id)
        GROUP BY poll_id, option_id
    ),
-- totals for all polls (reuse previous result)
totals AS (
    SELECT poll_id, sum(all_votes) AS all_votes, sum(target_votes) AS target_votes
        FROM votes
        GROUP BY poll_id
    ),
poll_options AS (
    SELECT poll_id, count(*) AS poll_option_count
        FROM options 
        GROUP BY poll_id
    )
-- reuse previous tables to get some stats
SELECT  *, ABS(total_percent - subgroup_percent) AS deviation
    FROM (
        SELECT
            poll_id,
            option_id,
            v.target_votes / v.all_votes AS subgroup_percent,
            t.target_votes / t.all_votes AS total_percent,
            poll_option_count
        FROM votes  v
        JOIN totals t           USING (poll_id)
        JOIN poll_options po    USING (poll_id)
    ) AS foo
    ORDER BY deviation DESC, poll_option_count DESC;

                                                                                  QUERY PLAN                                                                                
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Sort  (cost=14910.46..14910.56 rows=40 width=144) (actual time=299.844..299.862 rows=200 loops=1)
   Sort Key: (abs(((t.target_votes / t.all_votes) - (v.target_votes / v.all_votes)))), po.poll_option_count
   Sort Method:  quicksort  Memory: 52kB
   CTE uids
     ->  HashAggregate  (cost=1801.43..1850.52 rows=4909 width=4) (actual time=3.935..4.793 rows=4860 loops=1)
           ->  Nested Loop  (cost=0.00..1789.16 rows=4909 width=4) (actual time=0.029..2.555 rows=4860 loops=1)
                 ->  Seq Scan on options  (cost=0.00..3.50 rows=5 width=4) (actual time=0.008..0.032 rows=5 loops=1)
                       Filter: (poll_id = 22)
                 ->  Index Scan using responses_option_id_key on responses  (cost=0.00..344.86 rows=982 width=8) (actual time=0.012..0.298 rows=972 loops=5)
                       Index Cond: (public.responses.option_id = public.options.option_id)
   CTE votes
     ->  HashAggregate  (cost=13029.43..13032.43 rows=200 width=24) (actual time=298.255..298.317 rows=200 loops=1)
           ->  Hash Join  (cost=13019.68..13027.43 rows=200 width=24) (actual time=297.953..298.103 rows=200 loops=1)
                 Hash Cond: (public.responses.option_id = public.options.option_id)
                 ->  HashAggregate  (cost=13014.18..13017.18 rows=200 width=8) (actual time=297.839..297.879 rows=200 loops=1)
                       ->  Merge Left Join  (cost=399.13..11541.43 rows=196366 width=8) (actual time=9.301..230.467 rows=196366 loops=1)
                             Merge Cond: (public.responses.user_id = uids.user_id)
                             ->  Index Scan using responses_pkey on responses  (cost=0.00..8585.75 rows=196366 width=8) (actual time=0.015..121.971 rows=196366 loops=1)
                             ->  Sort  (cost=399.13..411.40 rows=4909 width=4) (actual time=9.281..22.044 rows=137645 loops=1)
                                   Sort Key: uids.user_id
                                   Sort Method:  quicksort  Memory: 420kB
                                   ->  CTE Scan on uids  (cost=0.00..98.18 rows=4909 width=4) (actual time=3.937..6.549 rows=4860 loops=1)
                 ->  Hash  (cost=3.00..3.00 rows=200 width=8) (actual time=0.095..0.095 rows=200 loops=1)
                       ->  Seq Scan on options  (cost=0.00..3.00 rows=200 width=8) (actual time=0.007..0.043 rows=200 loops=1)
   CTE totals
     ->  HashAggregate  (cost=5.50..8.50 rows=200 width=68) (actual time=298.629..298.640 rows=40 loops=1)
           ->  CTE Scan on votes  (cost=0.00..4.00 rows=200 width=68) (actual time=298.257..298.425 rows=200 loops=1)
   CTE poll_options
     ->  HashAggregate  (cost=4.00..4.50 rows=40 width=4) (actual time=0.091..0.101 rows=40 loops=1)
           ->  Seq Scan on options  (cost=0.00..3.00 rows=200 width=4) (actual time=0.005..0.020 rows=200 loops=1)
   ->  Hash Join  (cost=6.95..13.45 rows=40 width=144) (actual time=298.994..299.554 rows=200 loops=1)
         Hash Cond: (t.poll_id = v.poll_id)
         ->  CTE Scan on totals t  (cost=0.00..4.00 rows=200 width=68) (actual time=298.632..298.669 rows=40 loops=1)
         ->  Hash  (cost=6.45..6.45 rows=40 width=84) (actual time=0.335..0.335 rows=200 loops=1)
               ->  Hash Join  (cost=1.30..6.45 rows=40 width=84) (actual time=0.140..0.263 rows=200 loops=1)
                     Hash Cond: (v.poll_id = po.poll_id)
                     ->  CTE Scan on votes v  (cost=0.00..4.00 rows=200 width=72) (actual time=0.001..0.030 rows=200 loops=1)
                     ->  Hash  (cost=0.80..0.80 rows=40 width=12) (actual time=0.130..0.130 rows=40 loops=1)
                           ->  CTE Scan on poll_options po  (cost=0.00..0.80 rows=40 width=12) (actual time=0.093..0.119 rows=40 loops=1)
 Total runtime: 300.132 ms

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mysql

queryoptimization

如何优化查找相关性的极其缓慢的 MySQL 查询的相关文章

从 Yii2 中的联结表检索数据

我试图从 Yii2 中的连接表获取数据无需额外查询我有 2 个模型用户组通过连接表 user group 关联在 user group 表中我想存储此关系的额外数据管理标志将数据添加到连接表的最佳方法是什么 link 方法接
MySQL 获取时间优化

o我有一个包含 200 万个寄存器的表但它很快就会增长得更多基本上该表包含具有相应描述符的图像的兴趣点当我尝试执行选择在空间上靠近查询点的点的查询时总执行时间花费太长更准确地说持续时间获取 0 484 秒 27 441 秒
Mac OS X Yosemite/El Capitan 上自动启动 MySQL 服务器

我想在启动时自动启动 MySQL 服务器这在小牛队是可能的但在优胜美地似乎不起作用 edit 似乎这也适用于 El Capitan dcc 非常接近这是 MySQL 在 Yosemite 上再次自动启动的方式 The com mysq
从所有表中选择

我的数据库中有很多表都具有相同的结构我想从所有表中进行选择而不必像这样列出所有表 SELECT name FROM table1 table2 table3 table4 我尝试过但这不起作用 SELECT name FROM 有没有
MYSQL：SQL查询获取自增字段的值

我有一张桌子主键是id及其自动递增现在当我插入新记录时我需要获取更新记录的 id 我怎样才能做到这一点如果我使用查询 select max id from table name 执行后我可以获得id 但我能确定它是刚刚插入的记录的
Mysql获取特定表的最后一个id

我必须从特定的插入表中获取最后的插入 ID 可以说我有这个代码 INSERT INTO blahblah test1 test 2 VALUES test1 test2 INSERT INTO blahblah2 test1 test 2
如何使用MySqlCommand和prepare语句进行多行插入？(#C)

Mysql 给出了如何使用准备语句和 NET 插入行的示例 http dev mysql com doc refman 5 5 en connector net programming prepared html http dev mysq
使用 DBCP 配置 Tomcat

在闲置一段时间几个小时后我们收到了 CommunicationsException 来自 DBCP 错误消息在异常中位于这个问题的末尾但我没有看到任何配置文件中定义的 wait timeout 我们应该看哪里在 tomcat
为什么我的浮点数大于 1 时在 MYSQL 中存储为 .9999？

我将进程时间作为 float 4 4 存储在 MySQL 数据库中 start time microtime TRUE things happen in my script end time microtime TRUE process t
INNER JOIN 后从多个表获取最大日期

我有以下两个表 table 1 ID HOTEL ID NAME 1 100 xyz 2 101 pqr 3 102 abc table 2 ID BOOKING ID DEPARTURE DATE AMOUNT 1 1 2013 04 1
无法删除数据库 mysql：错误 3664 (HY000)

我的应用程序中有一个名为X Files 我想要drop它但每当我运行命令时drop database X Files我收到以下错误 mysql gt drop database X Files ERROR 3664 HY000 Faile
在 MySQL 中插入时检查并防止相似字符串

简要信息我有3张桌子 Set id name SetItem set id item id position TempSet id 我有一个函数可以生成新的随机组合Item桌子基本上总是在成功生成之后我在中创建一个新行Set表获取
数据库级别的别名列名 [MySQL]

别名可能是错误的词因为它是在将列表名称作为查询中的其他名称引用的上下文中使用的我感兴趣的是是否有一种方法可以在数据库中为列指定两个名称如果我要打印这样的表格它看起来会是这样的 mysql gt SELECT FROM User
如何获取knex / mysql中所有更新记录的列表

这是我正在处理的查询 return knex table returning id where boolean false andWhere fooID foo id update boolean true limit num then f
为 java 项目创建安装

我创建了一个 java 项目它使用数据库来检索编辑和保存数据我使用 Netbeans 完成了该项目现在我想在该项目之外创建一个安装为此我想包含与项目一起安装的数据库我用来连接数据库的代码是 Class forName com
在 Laravel 中按数据透视表 create_at 排序

在我的数据库中我有以下表格 courses id 名称创建时间更新时间 students id 名称创建时间更新时间课程学生 id course id student id created at updated at 我正在尝
合并两个具有相同列名称的 MYSQL 表

我有两张桌子表一是计划时间 id edition time 1 1 9 23am 2 2 10 23am 表二为实际时间 id edition time 1 1 10 23am 2 2 11 23am 我想要的结果是 Caption Ed
如何编写可以补偿拼写错误数据的 MySQL 搜索？

有没有什么方法可以编写一个 MySQL 搜索来弥补用户在拼写等方面的错误作为随机示例有人可能会输入电子邮件受保护 cdn cgi l email protection代替电子邮件受保护 cdn cgi l email protect
如何比较行内的重叠值？

我似乎对这个 SQL 查询有问题 SELECT FROM appts WHERE timeStart gt timeStart AND timeEnd lt timeEnd AND dayappt boatdate 时间格式为军用时间物流
为什么我收到“无法进行二进制日志记录”的信息。在我的 MySQL 服务器上？

当我今天启动 MySQL 服务器并尝试使用以下命令进行一些更改时用于 MySQL 的 Toad http www quest com toad for mysql 我收到此消息 MySQL 数据库错误无法进行二进制日志记录消息交易级别

随机推荐

Xcode：“无法保存文档。您没有权限。”

尝试在 Xcode 4 中保存文件时出现此错误无法保存文档您没有权限要查看或更改权限请在 Finder 中选择该项目然后选择文件 gt 获取信息当然将文件保存在 TextMate 中效果很好权限 rw r r 与上次工作时
使用 Ionic 框架将 html 文件的内容嵌入到另一个 html 页面？

我目前正在创建一个网站使用离子框架 http ionicframework com左侧有一个侧边栏用户可以单击某个项目转到网站的另一个页面现在我必须将侧边栏的代码复制到每个页面这是没有用的也不是可行的方法所以我的问题是是否可以将
定期重置嵌入式 H2 数据库

我正在演示服务器中设置应用程序的新版本并且希望找到一种每天重置数据库的方法我想我总是可以有一个 cron 作业执行删除和创建查询但我正在寻找一种更干净的方法我尝试使用带有删除创建方法的特殊持久性单元但它不起作用因为系统频繁地按
无法使用 C# 中的 CryptEncrypt/CryptDecrypt 进行解密

我制作了一个小应用程序来加密和解密一些文本只要我直接使用加密中的字节数组一切都很好但是一旦我复制了数组来模拟将加密文本作为文件发送的过程解密就不会运行为什么我无法使用复制的数组运行解密 using System using Sy
Python 中的事件驱动系统调用

我正在尝试使用系统调用或子流程来实现事件驱动的流程基本上我想启动一个非阻塞系统命令并在完成该系统调用后我想要调用一个函数这样我就可以启动 GUI 进度条启动系统命令并让进度条继续当系统调用完成时让进度条停止我绝对不想做的是生
在 html 字符串中插入 JavaScript 数组中的随机元素

我有一个字符串数组 var prepositions on in under behind above 我想将此数组中的随机元素插入到 html 字符串中所示的间隙处 The yellow object is the blue object
WordPress pre_get_posts 和 date_query

我正在尝试使用 pre get posts 挂钩来更改年度存档结果以便它显示整个学年的帖子我使用的是 WordPress 版本 3 9 2 function get posts by academic year query if que
如何通过revit API访问所有族类型？

是否可以使用 Revit API 访问特定类别例如窗户门等的所有族类型与实例相反据我所知使用 FilteredElementCollector doc OfCategory ToElements 或 FilteredElemen
根据输入字段的值更改文本颜色或背景[重复]

这个问题在这里已经有答案了可能的重复如何使用 Javascript 更改背景颜色 https stackoverflow com questions 197748 how do i change the background color
CQRS - 如何对场景执行系统进行建模

我最近开始为我即将启动的一个绿地项目研究 CQRS 和 DDD 我研究了 Udi Dahan Greg Young Mark Nijhof 等人的大量资料这些确实非常有帮助我想我对这些概念有了很好的理解但是我仍然有一些关于如何将这些
Android：如何将 ActionBar“Home”图标更改为应用程序图标以外的其他图标？

我的应用程序的主图标在一张图像中由两部分组成一个徽标和其下方的几个字母这对于应用程序的启动器图标效果很好但是当图标出现在 ActionBar 的左边缘时字母会被切断看起来不太好我想为 ActionBar 提供一个单独版本的图标
笨拙地计算一组递增数字之间的差异，有更漂亮的方法吗？

下面的代码工作得很好但看起来很冗长肯定有更优雅的方法来计算这个吗我的想法是我有一个包含 100 个递增时间戳的列表我想查看这些时间戳并计算每个时间戳之间的平均时间下面的代码可以运行但我确信像这样反转列表确实效率很低有什么建议
替换除正数/负数之外的所有内容

对于替换所有正数许多问题已经得到解答但是我找不到任何保留正数和负数的答案我想替换所有非数字正数或负数的内容输出应如下所示例如 0 success id 1234 gt 0 1234 and 10 failure id 234
Composer 从同一存储库上的另一个分支拉取依赖项

我有以下 Composer 1 6 5 设置 require CRMPicco GolfBundle dev golf bundle repositories type git url email protected cdn cgi l e
使用 VB.NET 的秒表循环

我想使用 VB NET 创建一个带有此接口的简单计时器我想按 Button1 并开始在文本框中计算秒数我不想使用计时器组件因为它不提供高分辨率 https stackoverflow com questions 10470276 my
如何使用Content Provider实现复杂的查询？

我问这个问题是因为我不太确定如何与 Android 内容提供商合作我的数据库子集包含 8 个表我需要创建复杂的查询来获取一些数据我的内容提供程序可以很好地处理简单的查询例如我的表上有一个 PersonPersonModel jav
检查 JavaScript 中的全局属性/函数是否已被覆盖

JavaScript 可以轻松覆盖全局对象的属性和函数我想找到一种方法来检查全局属性的原始版本是否已被替换考虑有人将其放入 HTML 中如果 myscript js 在某处调用encodeURIComponent 函数它现在的行为将
将 XX:XX AM/PM 转换为 24 小时制

我搜索过谷歌但找不到如何获取字符串 xx xx 上午下午例如下午 3 30 并将其更改为现在的 24 小时例如前一个时间是 15 30 我研究过简单地使用 if then 语句来操作字符串但它看起来非常乏味有什么简单的方法可以
覆盖 Spring 表单错误消息

在 Spring 中如何覆盖默认表单错误消息我正在使用一个Validator和一个属性文件来添加我自己的错误消息但是例如如何覆盖因转换编码错误而打印的消息它们似乎是自动生成的我认为对用户没有帮助 Failed to conve
如何优化查找相关性的极其缓慢的 MySQL 查询

我有一个非常慢通常接近 60 秒的 MySQL 查询它试图找到用户对一项民意调查的投票方式与他们对所有先前民意调查的投票方式之间的相关性基本上我们收集在给定民意调查中投票给某一特定选项的每个人的用户 ID 然后我们查看该小组如何

如何优化查找相关性的极其缓慢的 MySQL 查询

如何优化查找相关性的极其缓慢的 MySQL 查询 的相关文章

随机推荐

热门标签

如何优化查找相关性的极其缓慢的 MySQL 查询的相关文章