如何使用Python高效地将CSV文件数据插入MYSQL？

2024-05-11

我有一个带有 aprox 的 CSV 输入文件。 400 万条记录。插入已运行超过 2 小时，但仍未完成。数据库仍然是空的。

关于如何实际插入值的任何建议（使用insert into）并且更快，比如将插入物分成块？

我对 python 还很陌生。

csv 文件示例

43293,cancelled,1,0.0,
1049007,cancelled,1,0.0,
438255,live,1,0.0,classA
1007255,xpto,1,0.0,

蟒蛇脚本

def csv_to_DB(xing_csv_input, db_opts):
    print("Inserting csv file {} to database {}".format(xing_csv_input, db_opts['host']))
    conn = pymysql.connect(**db_opts)
    cur = conn.cursor()
    try:
        with open(xing_csv_input, newline='') as csvfile:
            csv_data = csv.reader(csvfile, delimiter=',', quotechar='"')
            for row in csv_data:
                insert_str = "INSERT INTO table_x (ID, desc, desc_version, val, class) VALUES (%s, %s, %s, %s, %s)"
                cur.execute(insert_str, row)
        conn.commit()
    finally:
        conn.close()

UPDATE:感谢您的所有投入。按照建议，我尝试使用计数器来批量插入 100 个和较小的 csv 数据集（1000 行）。现在的问题是只插入了 100 条记录，尽管计数器多次超过 10 x 100。

代码更改：

def csv_to_DB(xing_csv_input, db_opts):
   print("Inserting csv file {} to database {}".format(xing_csv_input, db_opts['host']))
   conn = pymysql.connect(**db_opts)
   cur = conn.cursor()
   count = 0
   try:
       with open(xing_csv_input, newline='') as csvfile:
           csv_data = csv.reader(csvfile, delimiter=',', quotechar='"')
           for row in csv_data:
               count += 1
               print(count)
               insert_str = "INSERT INTO table_x (ID, desc, desc_version, val, class) VALUES (%s, %s, %s, %s, %s)"

               if count >= 100:
                  cur.execute(insert_str, row)
                  print("count100")
                  conn.commit()
                  count = 0

               if not row:
                  cur.execute(insert_str, row)
                  conn.commit()
   finally:
       conn.close()

有很多方法可以优化此插入。以下是一些想法：

您对整个数据集有一个 for 循环。你可以做一个commit()每100个左右
You can 在一次插入中插入多行 https://stackoverflow.com/questions/6889065/inserting-multiple-rows-in-mysql
您可以将两者结合起来，在 CSV 上每 100 行插入多行
如果不需要 python，您可以直接使用 MySQL 来完成，正如它所解释的那样here https://stackoverflow.com/a/42933107/943138。（如果必须使用 python 执行此操作，您仍然可以在 python 中准备该语句并避免手动循环文件）。

例子：

对于列表中的数字 2，代码将具有以下结构：

def csv_to_DB(xing_csv_input, db_opts):
    print("Inserting csv file {} to database {}".format(xing_csv_input, db_opts['host']))
    conn = pymysql.connect(**db_opts)
    cur = conn.cursor()
    try:
        with open(xing_csv_input, newline='') as csvfile:
            csv_data = csv.reader(csvfile, delimiter=',', quotechar='"')
            to_insert = []
            insert_str = "INSERT INTO table_x (ID, desc, desc_version, val, class) VALUES "
            template = '(%s, %s, %s, %s, %s)'
            count = 0
            for row in csv_data:
                count += 1
                to_insert.append(tuple(row))
                if count % 100 == 0:
                    query = insert_str + '\n'.join([template % r for r in to_insert])
                    cur.execute(query)
                    to_insert = []
                    conn.commit()
            query = insert_str + '\n'.join(template % to_insert)
            cur.execute(query)
            conn.commit()
    finally:
        conn.close()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

mysql

python3x

database

如何使用Python高效地将CSV文件数据插入MYSQL？的相关文章

如何在 django 表单中设置自定义 HTML 属性？

我有一个 Django 表单它是页面的一部分假设我有一个字段 search input forms CharField u Search word required False 我只能通过模板访问它 form search input
Plotly - 不同颜色的表面

我正在尝试在 Plotly for Python 中绘制多个曲面每个曲面具有不同的颜色具体来说表面显示了在相空间中不同点采取行动的预测奖励函数由于我在每个点都有多个可能的操作因此每个点都是不同的表面我想对每个表面进行独特的着色
如何在python包中包含.pyx文件

我在我的包中使用了 cythonpyirt https github com 17zuoye pyirt 但是当我将其发布到 pypi 时 pyx 文件不包含在 tar gz 中我认为这一定与安装文件有关但是我找不到解决这个问题的方法
PySerial 和多个 Python 安装出现问题

我的 Windows 7 计算机上有 Python 2 4 4 和 3 1 3 我想使用 PySerial 听说是内置的所以我尝试了一下import serial在两个版本中两者都造成了Import Error 然后我从以下位置下载了w
python请求：重试直到收到有效响应

我想知道是否存在重试请求一定次数的常见模式可能由于服务器错误或网络不良而失败我想出了这个并且我愿意在那里找到更好的实现 cnt 0 while cnt lt 3 try response requests get uri if res
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
seaborn 未在定义的子图中绘制

我正在尝试用这段代码并排绘制两个图表 fig ax1 ax2 plt subplots 1 2 sns displot x X train Age hue y train ax ax1 sns displot x X train Fare
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
如何将文本文件中的十六进制行转换为数组（Python）？

我有一个文本文件每行包含一个十六进制明文我的文件如下所示 7a8e5dc390781eab8df2c090bf4bebca dbac0fba55d3d4fc177161bfe24dc7fb 82e5a7a021197f6fbe94a86
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
Python：选择多个已安装模块版本之一

在我的系统上我多次安装了多个模块举个例子 numpy 1 6 1安装在标准路径中 usr lib python2 7 dist packages 我有一个更新版本numpy 1 8 0安装于 local python lib pytho
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
您能否从函数、args 和 kwargs 确定变量将如何分配？

我有一些样板逻辑我想包装几个具有相同可选关键字的函数现在看起来像下面的代码但是这仅处理 opt key 作为关键字传递的情况而不是按位置传递解决这个问题的一种方法是了解如何解决参数分配是否有一些元函数接受函数 args 和 k
Django 自定义查询集过滤器

在 Django 中是否有一种标准方法可以为查询集编写复杂的自定义过滤器就像我能写的一样 MyClass objects all filter field val 我想做这样的事情 MyClass objects all filter
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
尝试在 android 中更新 sqlite 数据库时出错

我的数据库正在运行但我插入的所有记录都是为了检查目的现在我想删除所有表并创建新表所以我尝试通过更改版本来更新数据库我没有对创建表查询进行任何更改但外键约束失败代码 787 这是我的DBHelper class private s
Django 1.6：如何在视图中访问静态文件

我已经尝试过解决方案here https stackoverflow com questions 11721818 django get the static files url in view这对我不起作用我正在为 Python 创建一
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
从 s3 获取 ogg 轨道的长度而不下载整个文件

如何在不下载整个文件的情况下获取 ogg 文件的播放长度我知道这是可能的因为 HTML5 标签和 VLC 都可以在加载 URL 后立即显示整个播放长度而无需下载整个文件有标题或我可以阅读的内容吗也许甚至是比特率我可以将其除以文件
Python 线程与 Linux 中的多处理

基于此question https stackoverflow com questions 807506 threads vs processes in linux我假设创建新流程应该几乎和创造新线程在Linux中然而很少的测试显示出截

随机推荐

WebDriver.dll 中发生“System.InvalidOperationException”类型的未处理异常

我正在学习 selenium C 教程目前处于第一阶段因此当我运行控制台应用程序时出现以下错误 System InvalidOperationException 类型的未处理异常发生在WebDriver dll中附加信息未知错
Delphi 2007 中的 HelpInsight 文档

我正在使用 D2007 并尝试使用 HelpInsight 功能自 D2005 起提供来记录我的源代码我主要对让 HelpInsight 工具提示正常工作感兴趣通过各种网上冲浪和实验我发现了以下内容使用三斜杠注释样式比其他记录
使用 Spring Security 将数据库和 SAML 身份验证合并到一个应用程序中

我正在尝试使用 spring security spring security starter 在 spring boot 2 2 4 应用程序中实现身份验证和授权使用案例根据用户名我想将用户重定向到特定的身份验证提供商如果用户名结
当我只能处理文件或文件路径时如何处理 SAF？

背景在 Android Q 之前如果我们想获取有关 APK 文件的信息我们可以使用写外部存储 https developer android com reference android Manifest permission html
我可以使用 WatiN 读取 JavaScript 警报框吗？

我想使用 WatiN 来验证 JavaScript 警报框中的错误消息这可能吗谢谢 see 特雷夫的博客 http tmichealson blogspot com 2007 01 handling alerts in watin ht
如何在sqlalchemy中编写自己的方言来适应HTTP API？

我正在尝试向 Superset 数据探索平台添加一个特殊的数据源该数据库仅支持HTTP API 返回json格式的数据例如 gt http localhost api sql query q select from table lt
配置jedi不自动完成？

我在 emacs 中安装了 jedi mode 来进行 python 编辑因为我发现C and C 对于跳转到定义并返回非常有用然而自动完成并不是我想要的当我尝试在安装了 jedi 的情况下使用 emacs 时它会不断尝试提供建议
使到 n 个点的集合的欧氏距离之和最小的点

我有一组点W x1 y1 x2 y2 xn yn 在 2D 平面上你能找到一种算法将这些点作为输入并返回一个点 x y 在 2D 平面上距以下点的距离之和最小W 换句话说如果 di Euclidean distance x y xi
在android中使用VoiceInteractionService的HotwordDetector

我正在使用自定义命令创建语音识别服务例如 Ok Google 为此我使用了VoiceInteractionService我引用了代码here http androidxref com 5 0 0 r2 xref frameworks ba
Vue 3 - 如何使用反应式引用并在没有 .value 的情况下进行计算？

当我们使用选项 API https v3 vuejs org api options api html 我们可以在中定义一些属性computed部分和一些属性data部分所有这些都可以通过实例从实例访问this引用即在同一个对象中非常
如何将现有回调 API 转换为 Promise？

我想使用 Promise 但我有一个回调 API 其格式如下 1 DOM加载或其他一次性事件 window onload set to callback window onload function 2 普通回调 function requ
VM428:7 未捕获类型错误：无法在 :7:17 处读取 null 属性（读取“CodeMirror”）

代码运行良好但我不明白在哪里收到此错误 VM428 7 Uncaught TypeError Cannot read properties of null reading CodeMirror at
提取所有列组中共有的元素

我有一个 R 数据集 x 如下 ID Month 1 1 Jan 2 3 Jan 3 4 Jan 4 6 Jan 5 6 Jan 6 9 Jan 7 2 Feb 8 4 Feb 9 6 Feb 10 8 Feb 11 9 Feb 12 10
2013 年 HTML 电子邮件：如何控制段落和图像等元素之间的间距？

我目前正在重新设计一些 HTML 电子邮件模板这是我几年来没有做过如此深入的事情我已经在 HTML 文件中制作了模板我正在浏览器中本地测试该模板一切看起来都很好我使用表格进行布局我使用的唯一其他标签是 p a and img C
结构体tag和name，为什么声明为name的局部变量会编译？

在我最近看到的一些代码中有一个如下定义的结构 typedef struct tagMyStruct int numberOne int numberTwo MYSTRUCT 按照我的理解 tagMyStruct是新的数据类型并且MYSTR
12/24小时模式冲突

我是一名法国 Android 开发者所以使用Locale getDefault 导致我的DateFormat使用 24 小时模式但是当我通过设置菜单将设备手动设置为 12 小时模式时 DateFormat以 24 小时格式持续进行相
为什么每次用户启动应用程序时都要注册推送通知？

在Apple文档中你可以找到下面这句话应用程序应在每次启动时进行注册并向其提供者提供当前令牌它调用 registerForRemoteNotificationTypes 来启动注册过程因此当我在应用程序中实现推送通知时我必须注册
使用 AVFoundation 和 Swift 访问多个音频硬件输出/通道

如何使用 AVFoundation 访问除 1 2 之外的其他音频硬件输出我正在为 Mac OS X 应用程序编写快速代码该应用程序通过各种输出设备 USB 接口 dante soundflower 播放 mp3 文件如下所示 myP
谷歌驱动器使用统计谷歌驱动器UI和API之间的差异

我们正在使用 Google Drive API关于获取 https developers google com drive v2 reference about get方法返回一个关于资源 https developers google
如何使用Python高效地将CSV文件数据插入MYSQL？

我有一个带有 aprox 的 CSV 输入文件 400 万条记录插入已运行超过 2 小时但仍未完成数据库仍然是空的关于如何实际插入值的任何建议使用insert into 并且更快比如将插入物分成块我对 python 还很陌生

如何使用Python高效地将CSV文件数据插入MYSQL？

如何使用Python高效地将CSV文件数据插入MYSQL？ 的相关文章

随机推荐

热门标签

如何使用Python高效地将CSV文件数据插入MYSQL？的相关文章