MySql 快速插入千万级大数据

2023-11-02

原文地址：http://blog.csdn.net/oldbai001/article/details/51693139

在数据分析领域，数据库是我们的好帮手。不仅可以接受我们的查询时间，还可以在这基础上做进一步分析。所以，我们必然要在数据库插入数据。在实际应用中，我们经常遇到千万级，甚至更大的数据量。如果没有一个快速的插入方法，则会事倍功半，花费大量的时间。

在参加阿里的天池大数据算法竞赛中（流行音乐趋势预测），我遇到了这样的问题，在没有优化数据库查询及插入之前，我花了不少冤枉时间，没有优化之前，1500万条数据，光插入操作就花费了不可思议的12个小时以上（使用最基本的逐条插入）。这也促使我思考怎样优化数据库插入及查询操作，提高效率。

在不断优化过程中，性能有大幅提升。在按时间序列从数据库查询并汇总生成2万6000多首歌曲的下载，播放，收藏数过程中，通过查询生成的操作速度提高从预估的40多小时降低到一小时多。在数据库插入方面，性能得到大幅提升；在新的数据集上测试，5490万+的数据，20分钟完成了插入。下面分享一下我的心得。

优化过程分为2步。第一步，实验静态reader从CSV文件读取数据，达到一定量时，开始多线程插入数据库程序；第二步，使用mysq批量插入操作。

第一步，读取文件，开始插入多线程

在这里，达到一定量的量是个需要斟酌的问题，在我的实验中，开始使用100w作为这个量，但是出现了新的问题，Java 堆内存溢出，最终采用了10W作为量的标准。

当然，可以有其他的量，看大家自己喜欢那个了。

[java] view plain copy

mport java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import preprocess.ImportDataBase;
public class MuiltThreadImportDB {
/**
* Java多线程读大文件并入库
*
* @param args
*/
private static int m_record = 99999;
private static BufferedReader br = null;
private ArrayList<String> list;
private static int m_thread = 0;
static {
try {
br = new BufferedReader(
new FileReader(
"E:/tianci/IJCAI15 Data/data_format1/user_log_format1.csv"),8192);
} catch (FileNotFoundException e) {
e.printStackTrace();
}
try {
br.readLine(); // 去掉CSV Header
} catch (IOException e) {
e.printStackTrace();
}
}
public void start() {
String line;
int count = 0;
list = new ArrayList<String>(m_record + 1);
synchronized (br) {
try {
while ((line = br.readLine()) != null) {
if (count < m_record) {
list.add(line);
count++;
} else {
list.add(line);
count = 0;
Thread t1 = new Thread(new MultiThread(list),Integer.toString(m_thread++));
t1.start();
list = new ArrayList<String>(m_record + 1);
}
}
if (list != null) {
Thread t1 = new Thread(new MultiThread(list),Integer.toString(m_thread++));
t1.start();
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
public static void main(String[] args) {
new MuiltThreadImportDB().start();
}
}

第二步，使用多线程，批量插入数据

[java] view plain copy

class MultiThread implements Runnable {
private ArrayList<String> list;
public MultiThread(ArrayList<String> list) {
this.list = list;
}
public void run() {
try {
ImportDataBase insert = new ImportDataBase(list);
insert.start();
} catch (FileNotFoundException e) {
e.printStackTrace();
}
display(this.list);
}
public void display(List<String> list) {
// for (String str : list) {
// System.out.println(str);
// }
System.out.print(Thread.currentThread().getName() + " :");
System.out.println(list.size());
}
}

批量操作中，使用mysql的prepareStatement类，当然也使用了statement类的批量操作，性能比不上前者。前者可以达到1w+每秒的插入速度，后者只有2000+；

[java] view plain copy

public int insertUserBehaviour(ArrayList<String> sqls) throws SQLException {
String sql = "insert into user_behaviour_log (user_id,item_id,cat_id,merchant_id,brand_id,time_stamp,action_type)"
+ " values(?,?,?,?,?,?,?)";
preStmt = conn.prepareStatement(sql);
for (int i = 0; i < sqls.size(); i++) {
UserLog log =new UserLog(sqls.get(i));
preStmt.setString(1, log.getUser_id());
preStmt.setString(2, log.getItem_id());
preStmt.setString(3, log.getCat_id());
preStmt.setString(4, log.getMerchant_id());
preStmt.setString(5, log.getBrand_id());
preStmt.setString(6, log.getTimeStamp());
preStmt.setString(7, log.getActionType());
preStmt.addBatch();
if ((i + 1) % 10000 == 0) {
preStmt.executeBatch();
conn.commit();
preStmt.clearBatch();
}
}
preStmt.executeBatch();
conn.commit();
return 1;
}

当然，也实验了不同的mysql存储引擎，InnoDB和MyISM,实验结果发现，InnoDB更快（3倍左右），可能和mysq的新版本有关系，笔者的mysql版本是5.6。

最后总结一下，大数据量下，提高插入速度的方法。

Java代码方面，使用多线程插入，并且使用批处理提交。

数据库方面，表结构建立时不要使用索引，要不然插入过程过还要维护索引B+树；修改存储引擎，一般默认是InnoDB，（新版本就使用默认就可以，老版本可能需要）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MySql 快速插入千万级大数据的相关文章

导入 CSV 以更新表中的行

大约有 26K 个产品帖子每个产品都有如下元值 post id 列是数据库中的产品 ID sku meta key 是每个产品的唯一 ID 我收到了一个新的 CSV 文件该文件更新了每个产品的 sale price meta key
Mysql为简单频繁查询创建排序索引性能

我正在处理一个包含大约 400 万条消息条目的 mysql 表并尝试根据时间戳选择最新的 50 条消息另一个要求是返回的消息不以固定前缀开头问题是单个查询大约占用 25 的 cpu 并且最多需要 1 5 秒该查询经常由多个客户端执行
解码Json数据数组并插入到mysql

这个问题可能已经在这里问过但我尝试搜索找不到它我有如下 Json 数据 CityInfo CityCode 5599 Name DRUSKININKAI CityCode 2003 Name KAUNAS CityCode 2573 N
UNIX时间记录时区吗？

我想问一下UNIX时间 UNIX时间是否记录时区我将托管从美国芝加哥移至 JST 问题是我的整个 MySQL 数据库都有 UNIX 时间芝加哥美国时区的记录我有一个 PHP 代码来显示之前的时间例如 3 天前昨天等当我搬到新
使用 pip3 安装 mysqlclient 时遇到问题

我正在尝试使用 Django 设置 python 3 6 环境安装说明说我应该安装 mysqlclient 才能连接到 mySQL 我明白了 dennis django sudo H pip3 install mysqlclient Co
mySQL 返回可能有重复项的随机行

我正在尝试随机化一定数量的行但假设数据库中只有 4 行而我需要获得 6 个随机行我希望有可能即使表中有超过 6 行产生重复的行行这在 mySQL 中很容易实现吗我当前的查询是这样的 SELECT FROM winners OR
使用 PHP 代码和 HTML 表单将 Excel (.csv) 导入 MySQL

我知道还有其他类似的帖子但每个人都建议直接在 PHPMyAdmin 中将其导入 MySQL 这工作完美但我需要通过 HTML 表单导入 PHP 到 MySQL 我想要一个收集文件的 HTML 表单然后将该文件传递给 PHP 脚本我想
需要有关使用 PHP 在 mysql 数据库中插入逗号分隔数据的帮助

数据库表中已有的演示数据 INSERT INTO csvtbl ID SKU Product Name Model Make Year From Year To VALUES 1 C2AZ 3B584 AR Power Steering P
自动将所有mysql表转储到单独的文件中？

我想将每个 mysql 表转储到单独的文件中手册指出其语法是 mysqldump options db name tbl name 这表明您事先知道表名称我现在可以设置知道每个表名称的脚本但是假设我在路上添加了一个新表并且忘记更新转储
是否可以使用“WHERE”子句来选择SQL语句中的所有记录？

晚上好我很好奇是否可以在 SQL 语句中创建一个 WHERE 子句来显示所有记录下面一些解释随机 SQL 语句 Java JSP示例正常情况 String SqlStatement SELECT FROM table example
PDO fetch() 失败时会抛出异常吗？

有没有方法PDO语句 fetch http php net manual en pdostatement fetch php如果 PDO 错误报告系统设置为抛出异常则在失败时抛出异常例如如果我设置 PDO ATTR ERRMODE g
选择MySql表数据放入数组中

我尝试从 mysql 捕获数据并将它们全部放入数组中认为 users table id name code 1 gorge 2132 2 flix ksd02 3 jasmen skaod2 sql mysql query select
RMySQL fetch - 找不到继承的方法

使用 RMySQL 我想将数据从数据库加载到 R 中的数据帧中为此我使用以下代码 R连接数据库 con lt dbConnect MySQL user root password password dbname prediction h
SQL 大表中的随机行（使用 where 子句）

我有一个网站人们可以在其中对汽车进行投票向用户展示 4 辆汽车他她可以投票选出他们最喜欢的汽车桌子cars有重要的列 car id int 10 not auto increment so has gaps views int 7
PDO::commit() 成功或失败

The PHP PDO 提交 http www php net manual en pdo commit php文档指出该方法成功时返回 TRUE 失败时返回 FALSE 这是指beginTransaction 和commit 之间的语句执
Sql：计算随时间的增长

我几周前发布了这个问题但我认为我没有清楚地提出这个问题因为我得到的答案不是我想要的我认为最好重新开始我正在尝试查询数据库以检索一段时间内唯一条目的数量数据看起来像这样 Day UserID 1 A 1 B 2 B 3 A 4 B
PHP 的 PDO 可以限制为单个查询吗？

PHP 的 PDO 允许通过 query 方法或作为准备好的语句同时执行多个查询以下两个示例均有效 Two SQL queries query SELECT FROM table DROP table Execute via query
Clojure MySQL 语法错误异常（“[...] 靠近 '???????????????' [...]”）

除了建立连接之外我在使用 clojure contrib sql 做任何事情时都遇到困难我有一个 mysqld 在 localhost 3306 上运行数据库名为clj db 用户 clj user localhost 和密码 clj
我可以在一个查询中更新/选择表吗？

我需要在查看页面时选择数据并更新视图列有没有一种方法可以在一个查询中执行此操作或者我是否必须使用不同的查询如果您不想不需要使用事务则可以创建一个存储过程该过程首先更新视图计数然后选择值并将其返回给用户
如何使用 PHP 从 MySQL 检索特定值？

好吧我已经厌倦了过去一周我花了大部分空闲时间试图解决这个问题我知道 SQL 中的查询已更改但我无法弄清楚我能找到的所有其他帖子似乎都已经过时了如果有人能帮助我我将非常感激我想做的就是使用手动输入数据库的唯一密码来检索行的

随机推荐

mac下Android Studio打不开了怎么办？

描述就是跳了一下然后躺平了解决办法排查打开应用程序 gt 右键android studio gt 显示包内容 gt Contents gt MacOS gt 双击 studio 查看错误错误可能是各种各样的但基本都能显示出来
基于最小二乘支持向量机（LS-SVM）进行分类、函数估计、时间序列预测和无监督学习（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文章阅读 1 概述很多力学工程等学科中的问题都可以归结为积分方
关于力控7.2的问题及解决方案整理（持续更新）

建议如果还没用力控如果还不确定要不要用力控一定不要 1 很多BUG 开发不完善 2 功能较为单一目录 1 专家报表关系数据库表头问题 2 智能单元用多了会变卡 3 连接数据库失败啊可以看报错哦 4 数据库组态改地址报错 4 网络发
服务器运维常用命令

一 linux 1 下载文件 wget O filename url 简单输出下载 wget nv O filename url 2 查看文件前几行 head n 20 file txt 3 查看目录下文件夹的大小 du d 1 h 4 c
政务区块链电子证照应用场景

政务区块链对于电子证照共享的应用场景区块链电子证照系统场景所解决的是证照共享的问题在预防各部门自己的证照被批量的被盗用或被篡改采用区块链证照模式将各个部门的证照共享解决的问题证件被批量盗取证件被他方恶意修改证件共享难实现
Linux power supply framwork & drvs

转自 http www wowotech net pm subsystem psy class overview html 按照自己的习惯改了下排版博主表打我 0 涉及文件 framwork drivers power power sup
macOS如何查看pkg安装包中的内部文件

目录写在前面安装App 使用 pkg 信息面板脚本查看写在前面 macOS如何查看 pkg 安装包中的内部文件我们在整系统的时候有的时候需要查看 pkg 的内部文件本文就教一教大家macOS如何查看 pkg 安装包中的内部文件
设置锚点

导航栏的定位 document scroll function if document scrollTop gt 442 nav css position fixed background ffffff top 0px z index 10
LinuxC文件操作接口

LinuxC文件操作接口创建与删除创建文件 FILE fopen const char filename const char mode int open const char pathname int flags mode t mod
python入门之逻辑判断

目录一判断 if 语句二逻辑运算三 if语句进阶四综合应用石头剪刀布五循环一判断 if 语句 1 判断语句演练判断年龄需求 1 定义一个整数变量记录年龄 2 判断是否满18岁 gt 3 如果满18岁允许进网吧嗨
IDEA中测试代码覆盖率(Run with Coverage)插件出错的解决方式

在进行实验时第一步要求安装测试代码覆盖率的插件时发现idea上自带了可以直接使用的功能我们在写好或者导入junit测试代码之后idea会自动帮我们下载junit 配置好相关设置之后就可以运行正常的直接运行测试代码都可以直接进行但是这个
JQuery

公式 a href 点我 a
基于Node.js的NoSQL产品：FileDB V3.0开发完毕

FileDB前两版是基于Java和Servlet容器的且只能现实简单的Key Value数据存取 V3 0版使用了Javascript语言重写代码并进行了重新设计运行环境改为了Node js V3 0版功能有所增强支持建任意多个表
SpringBoot在一定时间内限制接口请求次数-接口防刷拦截

前一篇文字写了springboot的注册登录接口并且这两个接口是开放的特别是注册接口为了防止恶意注册需要设置拦截需要用到的知识注解 AOP ExpiringMap 带有有效期的映射需要自定义注解把注解添加到我们的接口上定义一
Qt插件机制及加载流程

简介插件实际上就是一个个动态库动态库在不同平台下后缀名不一样比如在 Windows下以 dll结尾 Linux 下以 so结尾那么开发插件其实就是开发一个动态库该动态库能够很好的加载进主程序访问主程序资源和主程序之间进行通信
k8s-核心实战

一资源创建方式使用命令行使用yum 二 NameSpace 名称空间用来对集群资源进行隔离划分默认只隔离资源不隔离网络例如创建开发测试生产等命令空间可以保证一个应用引用配置只能读取自己名称空间内的资源但是可以访问不同名
悬镜安全宣布完成数千万元Pre-A轮融资

榜样的力量数据猿公益策划活动寻找新冠战疫中国数据智能产业先锋力量申报项目提交文章或深度采访即可参与此次活动最终推出的榜单勋章思想者合集以及人物条漫等内容的评选并有全网超过100家媒体同步扩散传播丨点击这里了解详情
基于微信小程序的医院挂号预约系统

末尾获取源码开发语言 Java Java开发工具 JDK1 8 后端框架 SSM 前端 Vue 数据库 MySQL5 7和Navicat管理工具结合服务器 Tomcat8 5 开发软件 IDEA Eclipse 是否Maven项目是
双系统安装Win10+Ubuntu18.04超详细教程

双系统安装Win10 Ubuntu18 04超详细教程本教程主要内容包括准备工作制作U盘磁盘分区和安装过程文章目录双系统安装Win10 Ubuntu18 04超详细教程一准备工作 1 1 确认BIOS模式 1 2 确认硬盘数
MySql 快速插入千万级大数据

原文地址 http blog csdn net oldbai001 article details 51693139 在数据分析领域数据库是我们的好帮手不仅可以接受我们的查询时间还可以在这基础上做进一步分析所以我们必然要在数据库插

MySql 快速插入千万级大数据

MySql 快速插入千万级大数据 的相关文章

随机推荐

热门标签

MySql 快速插入千万级大数据的相关文章