提高 mysql LOAD DATA / mysqlimport 的性能？

2024-01-13

我正在批处理CSV15GB（30mio 行）成mysql-8数据库。

问题：任务大约需要 20 分钟，吞吐量约为 15-20 MB/s。而硬盘能够以 150 MB/s 的速度传输文件。

我有一个 20GB 的 RAM 磁盘，用于保存我的 csv。导入如下：

mysqlimport --user="root" --password="pass" --local --use-threads=8 mytable /tmp/mydata.csv

这使用LOAD DATA在引擎盖下。我的目标表没有任何索引，但有大约 100 列（我无法更改它）。

奇怪的是：我尝试调整几个配置参数，如下所示/etc/mysql/my.cnf，但他们没有给出任何显着的改进：

log_bin=OFF
skip-log-bin
innodb_buffer_pool_size=20G
tmp_table_size=20G
max_heap_table_size=20G
innodb_log_buffer_size=4M
innodb_flush_log_at_trx_commit=2
innodb_doublewrite=0
innodb_autoinc_lock_mode=2

问题：是否LOAD DATA / mysqlimport尊重这些配置更改吗？还是绕过了？或者我是否使用了正确的配置文件？

至少对变量的选择表明它们已被 mysql 服务器正确加载。例如show variables like 'innodb_doublewrite' shows OFF

无论如何，如何进一步提高导入速度？或者我的数据库是瓶颈并且没有办法克服 15-20 MB/s 的阈值？

更新：有趣的是，如果我将 csv 从硬盘导入到 ramdisk，性能几乎相同（只是好一点，但永远不会超过 25 MB/s）。我还测试了相同数量的行，但仅测试了几 (5) 列。我的速度达到了大约 80 MB/s。那么显然列数是瓶颈？但为什么更多的色谱柱会减慢这个过程呢？

MySQL/MariaDB 引擎在进行批量插入时几乎没有并行化。每个CPU只能使用一个核心LOAD DATA陈述。您可能会在加载期间监视 CPU 利用率，以查看一个核心是否得到充分利用，并且它只能提供一定量的输出数据 - 从而导致磁盘吞吐量未得到充分利用。

MySQL 的最新版本具有新的并行加载功能：https://dev.mysql.com/doc/mysql-shell/8.0/en/mysql-shell-utilities-parallel-table.html https://dev.mysql.com/doc/mysql-shell/8.0/en/mysql-shell-utilities-parallel-table.html。它看起来很有希望，但可能还没有收到太多反馈。我不确定这对你的情况有帮助。

我在互联网上看到了各种清单，建议在以下配置参数中使用更高的值：log_buffer_size, log_file_size, write_io_threads, bulk_insert_buffer_size。但当我进行对比测试时，好处并不是很明显（可能比单纯的快 10-20%）innodb_buffer_pool_size足够大）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

提高 mysql LOAD DATA / mysqlimport 的性能？的相关文章

当与“<”或“>”运算符一起使用时，MySQL 不使用 DATE 上的索引吗？

我正在使用解释来测试这些查询 col 类型是 DATE 这使用索引 explain SELECT events FROM events WHERE events date 2010 06 11 这不 explain SELECT event
尝试在 React 应用程序中连接到 MySQL 数据库时，无法读取未定义的属性（读取“查询”）错误

我正在尝试连接到 MySQL 数据库并在单击按钮后在 React 应用程序中运行查询一些它如何给出错误我当前的代码如下所示 import mysql from mysql function App async function sync
MySQL - 选择一行 - 然后相对于所选行的下一个和上一个

我会尽力澄清这一点我需要在不使用 id 的情况下选择特定行和该选定行的前一个相对行以及该选定行的下一个相对行这可能吗简而言之上一篇和下一篇我不能也许我只是不知道如何使用 id 的原因是因为它们不是按顺序排列的正如您从这个相当
Laravel 5.4 升级 - 违反完整性约束 - 列不能为空

奇怪的是所有这些都在 5 2 中工作但我不知道可以改变什么来实现这一点下面是错误和正在插入的数组 SQLSTATE 23000 Integrity constraint violation 1048 Column gender can
无法在 .net core 2 中从 MySQL 构建“日期”类型列

我已经开始了一个新的 net core 2 项目我正在尝试将 MySQL 数据库导入实体框架我使用此命令来搭建数据库 Scaffold DbContext server localhost port 3306 user id user
如何导出带有数据的 MySQL 架构？

我有一个完整的架构其中有许多表其中包含 MySQL 查询浏览器中的数据现在我想将这个包含所有表数据的完整数据库发送给我的同事我怎样才能将其发送给我的同事以便他可以将这个完整的架构放入他的 MySQL 查询浏览器中 Thanks
MySQL 数据库无法在 XAMPP for Mac 上启动

突然我在 mac 上遇到了这个问题我无法启动我的 MySQL 数据库我只能启动 ProFTPD 和 Apache Web Server 这是应用程序日志 Starting all servers Starting MySQL Datab
在MySQL中生成随机字符串

我正在尝试使用函数在 phpmyadmin 中获取随机字符串我有以下代码 CREATE FUNCTION randomPassword RETURNS varchar 128 BEGIN SET chars ABCDEFGHIJKLMNO
AWS RDS MySql - 如何在设置“公开可用”后允许访问

刚刚使用默认设置和用户密码创建了新的 AWS RDS MySql 实例我也将其设置为publicly available并在此过程中创建新的 VPC 目前无法从我的笔记本电脑连接到此 RDS mysql h endpoint u myu
WHERE NOT EXIST 附近的语法错误

我在堆栈中搜索但没有一个达到最终答案我的查询是这样的 INSERT INTO user username frequence autoSend VALUES feri2 3 1 WHERE NOT EXISTS SELECT FROM
使用“INSERT ... ON DUPLICATE KEY UPDATE”插入多条记录

我的表结构 table marks 我的目标我想用条件插入或更新多条记录我目前正在通过此查询进行检查第一步 SELECT FROM marks WHERE student 115 AND param 1 第二步 if records
从 call_log 中获取最大并发通话数

我需要帮助在 MySQL 5 0 77 中编写一个查询根据下面所示的数据办公室一天的通话量返回并发电话呼叫的峰值数量我只是想知道一天中任何特定时间同时打电话的人数最多是多少首先这是 MySQL 表 CREATE TABLE ca
JDBC 错误：在结果集开始之前[重复]

这个问题在这里已经有答案了我在 Java Eclipse 中收到错误消息我在 MySql 中有一个数据库它有列 String user name int id time int id desk int user password 我想
MySql 视图脚本中的注释

可以这样做吗我尝试过多个 gui mysql workbench navicat toad for mysql 但没有一个保存这样的注释 something important select something else importan
MySQL“列计数与第 1 行的值计数不匹配”是什么意思

这是我收到的消息 ER WRONG VALUE COUNT ON ROW 列计数与第 1 行的值计数不匹配这是我的全部代码我的错误在哪里 DROP TABLE student CREATE TABLE employee emp id I
Tomcat 6找不到mysql驱动

这里有一个类似的问题但关于类路径 ClassNotFoundException com mysql jdbc Driver https stackoverflow com questions 1585811 classnotfoundex
在mysql连接字符串中添加应用程序名称/程序名称[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在寻找一种解决方案在连接字符串中添加应用程序名称或程序名称以便它在 MySQL Workbench 中的客户端连接下可见 SQL
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
使用用户定义函数 MySql 时出错

您好请帮我解决这个问题提前致谢我在数据库中定义了这些函数 CREATE FUNCTION levenshtein s1 VARCHAR 255 s2 VARCHAR 255 RETURNS INT DETERMINISTIC BEGI
rake db 问题：迁移 -

我无法为 Ruby on Rails 设置 MySQL 数据库设置数据库并确保 config database yml 文件匹配后我遇到了以下错误消息 U Rails alpha gt rake db migrate trace in

随机推荐

保持 git clean 历史记录的最佳实践是什么？

在阅读有关 git 工作流程的文章时我想知道历史重写的适当性我的工作流程以及我想象的许多其他人的工作流程是这样的获取 Github 存储库我们称其为rep1 制作一个叉子这将是rep2 git 将其克隆到本地以进行使用即rep3
“ascii”编解码器无法对位置 * 或不在范围内的字符进行编码 (128)

stackoverflow 上有一些线程但我找不到整个问题的有效解决方案我从 urllib 读取函数收集了大量文本数据并将其存储在 pickle 文件中现在我想将这些数据写入文件写作时我遇到类似的错误 ascii codec can
如何在使用 Eigen Library C++ 时删除特定行或列

我正在为我的项目使用 Eigen 库我正在搜索如何从特征中的给定矩阵中删除特定行或列我没有成功 MatrixXd A X1 X2 X3 X4 Y1 Y2 Y3 Y4 Z1 Z2 Z3 Z4 A1 A2 A3 A4 MatrixXd At
SQL Server中两个日期之间的月差

请参考以下示例并请告诉我您的想法 declare EmployeeStartDate datetime 01 Sep 2013 declare EmployeeEndDate datetime 15 Nov 2013 select Dat
ARCore 在按钮单击时保存相机图像 (Unity C#)

我有一个类似的问题例如以下三个问题将 Unity ARCore 中的 AcquireCameraImageBytes 作为图像保存到存储 https stackoverflow com questions 49579334 save a
我可以从 Google 表格脚本生成文件吗？

我正在使用 Google Sheets 为我正在做的事情制作一堆数值数据的原型有没有办法将子集导出到文本文件实际上我的目标是导出一个可以直接包含在另一个项目的构建中的文件那么有没有办法生成文本文件供下载呢如果您有 Google A
文件读取器内存泄漏

我正在使用 FileReader 将图像文件上传到客户端用于数据获取和缩略图显示我注意到的是在页面进程上在任务管理器中内存只会越来越高当进程停止时内存保持在高位并且永远不会下降你能告诉我我在这里做错了什么吗如需查看请上传
找不到模块：无法解析“@date-io/date-fns”

我在用着反应材料用户界面 https material ui com我收到此错误找不到模块无法解析 date io date fns 以下是我的 package json 文件中的依赖项 dependencies date io dat
当需要日志记录时，您会考虑哪种设计模式？

我正在开发的应用程序需要将操作执行该操作的用户以及操作时间记录到数据库中哪种设计模式最流行最适合日志记录我在想命令模式需要当前用户和操作执行操作并写入日志你怎么认为我可以考虑其他替代方案吗谢谢您可以使用AOP http e
如何删除Jenkins下的View而不影响现有作业

我想删除Jenkins下的Views而不影响视图下的Jobs 我之所以问这个问题是因为即使以管理员身份删除它后我也无法输入相同的视图名称我检查了 Jenkins 文件夹下的配置文件并尝试编辑视图名称但这不起作用我需要确认以下脚本是
图钉调整绑定缩放级别大小

我将 WinRT 与 bing 地图结合使用并尝试在缩放地图时设置以编程方式图钉的 RenderTransform 值我试过这个Solution http social msdn microsoft com Forums en US
Django - 如何在不修改的情况下扩展第 3 方模型

我想向数据库表添加一列但我不想修改第 3 方模块以防我将来需要决定升级模块有没有办法可以在我的代码中添加此字段以便在新版本中我不必手动添加该字段您可以使用 ModelName add to class 或 contribute
pip3 ImportError：无法导入名称“IncompleteRead”

通过安装模块时遇到问题pip3 尝试了 2014 年 12 月以来投票最高的帖子中的一些建议但仍然得到以下结果 sudo pip3 install send2trash Traceback most recent call last Fi
使用 GAE 限制对静态文件的访问

我有一个静态文件我不想公开该文件有没有办法限制 app yaml 的访问使其只能由自己的域加载基于 web2py 的解决方案也很受欢迎因为我在 GAE 之上使用它 Thanks 您可以使用登录必需来限制对其的访问以要求使用
RuntimeError: 维度超出范围（预期在 [-1, 0] 范围内，但得到 1）

我使用 Pytorch Unet 模型将图像作为输入同时将标签作为输入图像掩码并在其上训练数据集我从其他地方获得的 Unet 模型我使用交叉熵损失作为损失函数但我得到了这个维度超出范围的错误 RuntimeError Trace
为什么无法从 Excel 互操作中设置强制转换对象？

尝试获取对工作表的引用使用 Excel 互操作 Excel Application xl new Excel ApplicationClass Excel Workbooks xlWorkBooks xl Workbooks Excel
Cytoscape.js - 将核心背景设置为深色？

我正在尝试将边缘渲染为白色因此希望在 cytoscape js 视口中使用黑色背景我尝试修改 div 上的 cssid cy 但这似乎被覆盖了在文档中我只能找到在导出到图像时设置背景颜色的功能例如cy jpg 但这不是我想要的我
（未使用的）GLSL 制服/输入/输出是否有助于调节压力？

我不知道制服在记忆中是如何表示的制服似乎会占用宝贵的寄存器空间但它们最终会传入通过传出到全局内存中对吧制服未使用后情况会发生变化吗编译器可以优化它们吗在这种情况下我作为绑定位置变得无效 1 所以我假设是的制服以 GLSL
gnu ld 链接整个目标文件还是仅链接所需的函数？

我们有一个库和一个可执行文件那就是静态地链接到库我们希望最小化最终可执行文件的程序空间根据 avr libc 的文档链接器链接该函数所在的整个对象模块 http www nongnu org avr libc user manual
提高 mysql LOAD DATA / mysqlimport 的性能？

我正在批处理CSV15GB 30mio 行成mysql 8数据库问题任务大约需要 20 分钟吞吐量约为 15 20 MB s 而硬盘能够以 150 MB s 的速度传输文件我有一个 20GB 的 RAM 磁盘用于保存我的 csv

提高 mysql LOAD DATA / mysqlimport 的性能？

提高 mysql LOAD DATA / mysqlimport 的性能？ 的相关文章

随机推荐

热门标签

提高 mysql LOAD DATA / mysqlimport 的性能？的相关文章