18M+行表的子查询和MySQL缓存

2024-04-15

由于这是我的第一篇文章，我似乎只能发布 1 个链接，因此我在底部列出了我所指的网站。简而言之，我的目标是让数据库更快地返回结果，我尝试包含尽可能多的相关信息，以帮助在帖子底部提出问题。

机器信息

8 processors
model name      : Intel(R) Xeon(R) CPU           E5440  @ 2.83GHz
cache size      : 6144 KB
cpu cores       : 4 

top - 17:11:48 up 35 days, 22:22, 10 users,  load average: 1.35, 4.89, 7.80
Tasks: 329 total,   1 running, 328 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.0%sy,  0.0%ni, 87.4%id, 12.5%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8173980k total,  5374348k used,  2799632k free,    30148k buffers
Swap: 16777208k total,  6385312k used, 10391896k free,  2615836k cached

然而，我们正在考虑将 mysql 安装移动到集群中具有 256 GB RAM 的另一台机器上

表信息

我的 MySQL 表看起来像

CREATE TABLE ClusterMatches 
(
    id INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
    cluster_index INT, 
    matches LONGTEXT,
    tfidf FLOAT,
    INDEX(cluster_index)   
);

它有大约 18M 行，有 1M 个唯一 cluster_index 和 6K 个唯一匹配。我在 PHP 中生成的 sql 查询如下所示。

SQL查询

$sql_query="SELECT `matches`,sum(`tfidf`) FROM 
(SELECT * FROM Test2_ClusterMatches WHERE `cluster_index` in (".$clusters.")) 
AS result GROUP BY `matches` ORDER BY sum(`tfidf`) DESC LIMIT 0, 10;";

其中 $cluster 包含大约 3,000 个逗号分隔的 cluster_index 字符串。该查询使用大约 50,000 行，运行时间大约为 15 秒，当再次运行相同的查询时，运行时间大约为 1 秒。

Usage

可以假定表的内容是静态的。
并发用户数低
上面的查询是当前将在表上运行的唯一查询

Subquery

基于这篇文章 [stackoverflow: Cache/Re-Use a Subquery in MySQL][1] 以及查询时间的改进，我相信我的子查询可以被索引。

mysql> EXPLAIN EXTENDED SELECT `matches`,sum(`tfidf`) FROM 
(SELECT * FROM ClusterMatches WHERE `cluster_index` in (1,2,...,3000) 
AS result GROUP BY `matches` ORDER BY sum(`tfidf`) ASC LIMIT 0, 10;

+----+-------------+----------------------+-------+---------------+---------------+---------+------+-------+---------------------------------+
| id | select_type | table                | type  | possible_keys | key           | key_len | ref  | rows  | Extra                           |
+----+-------------+----------------------+-------+---------------+---------------+---------+------+-------+---------------------------------+
|  1 | PRIMARY     |  derived2            | ALL   | NULL          | NULL          | NULL    | NULL | 48528 | Using temporary; Using filesort | 
|  2 | DERIVED     | ClusterMatches       | range | cluster_index | cluster_index | 5       | NULL | 53689 | Using where                     | 
+----+-------------+----------------------+-------+---------------+---------------+---------+------+-------+---------------------------------+

根据额外信息中的这篇旧文章[优化 MySQL：查询和索引][2] - 这里看到的不好的是“使用临时”和“使用文件排序”

MySQL 配置信息

查询缓存可用，但由于大小当前设置为零而被有效关闭


mysqladmin variables;
+---------------------------------+----------------------+
| Variable_name                   | Value                |
+---------------------------------+----------------------+
| bdb_cache_size                  | 8384512              | 
| binlog_cache_size               | 32768                | 
| expire_logs_days                | 0                    |
| have_query_cache                | YES                  | 
| flush                           | OFF                  |
| flush_time                      | 0                    |
| innodb_additional_mem_pool_size | 1048576              |
| innodb_autoextend_increment     | 8                    |
| innodb_buffer_pool_awe_mem_mb   | 0                    |
| innodb_buffer_pool_size         | 8388608              |
| join_buffer_size                | 131072               |
| key_buffer_size                 | 8384512              |
| key_cache_age_threshold         | 300                  |
| key_cache_block_size            | 1024                 |
| key_cache_division_limit        | 100                  |
| max_binlog_cache_size           | 18446744073709547520 | 
| sort_buffer_size                | 2097144              |
| table_cache                     | 64                   | 
| thread_cache_size               | 0                    | 
| query_cache_limit               | 1048576              |
| query_cache_min_res_unit        | 4096                 |
| query_cache_size                | 0                    |
| query_cache_type                | ON                   |
| query_cache_wlock_invalidate    | OFF                  |
| read_rnd_buffer_size            | 262144               |
+---------------------------------+----------------------+

基于这篇关于[Mysql数据库性能转向][3]的文章，我相信我需要调整的值是

表缓存
密钥缓冲区
排序缓冲区
读缓冲区大小
record_rnd_buffer（对于 GROUP BY 和 ORDER BY 术语）

确定需要改进的领域 - MySQL 查询调整

将匹配的数据类型更改为指向另一个表的 int 索引 [如果 MySQL 包含像 TEXT 或 BLOB 这样的可变长度字段，MySQL 确实会使用动态行格式，在这种情况下，这意味着需要在磁盘上完成排序。解决方案不是避开这些数据类型，而是将这些字段拆分到关联的表中。][4]
对新的匹配索引字段建立索引，以便 GROUP BYmatches根据以下语句，发生速度更快 [“您可能应该为您要选择、分组、排序或连接的任何字段创建索引。”][5]

Tools

为了调整性能，我计划使用

[解释][6]参考[输出格式][7]
[ab - Apache HTTP 服务器基准测试工具][8]
[分析][9] 和 [日志数据][10]

未来数据库大小

目标是构建一个可以拥有 1M 个唯一 cluster_index 值、1M 个唯一匹配值、大约 3,000,000,000 个表行、查询响应时间约为 0.5 秒的系统（我们可以根据需要添加更多 ram 并将数据库分布在集群中）

问题

我认为我们希望将整个记录集保留在 RAM 中，以便查询不会接触磁盘，如果我们将整个数据库保留在 MySQL 缓存中，是否就不再需要 memcachedb 了？
尝试将整个数据库保留在 MySQL 缓存中是否是一个糟糕的策略，因为它没有被设计为持久性的？像 memcachedb 或 redis 这样的东西会是更好的方法吗？如果是的话为什么？
当查询完成时，查询创建的临时表“结果”是否会自动销毁？
我们是否应该从 Innodb 切换到 MyISAM [因为它适合读取大量数据，而 InnoDB 适合写入大量数据][11]？
我的缓存在我的[查询缓存配置][12]中似乎没有打开，因为它为零，为什么查询当前在我第二次运行它时发生得更快？
我可以重组我的查询以消除“使用临时”和“使用文件排序”的发生，我应该使用联接而不是子查询吗？
如何查看MySQL[Data Cache][13]的大小？
您建议将 table_cache、key_buffer、sort_buffer、read_buffer_size、record_rnd_buffer 值的大小作为起点？

换桌子

根据这篇文章中的建议如何为 order by 和 group by 查询选择索引 http://mysqldba.blogspot.com/2008/06/how-to-pick-indexes-for-order-by-and.html表格现在看起来像

CREATE TABLE ClusterMatches 
(
    cluster_index INT UNSIGNED, 
    match_index INT UNSIGNED,
    id INT NOT NULL AUTO_INCREMENT,
    tfidf FLOAT,
    PRIMARY KEY (match_index,cluster_index,id,tfidf)
);
CREATE TABLE MatchLookup 
(
    match_index INT UNSIGNED NOT NULL PRIMARY KEY,
    image_match TINYTEXT
);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)