to_sql pyodbc count 字段不正确或语法错误

2023-12-15

我正在从 api 网站下载 Json 数据，并使用 sqlalchemy、pyodbc 和 pandas 的 to_sql 函数将该数据插入到 MSSQL 服务器中。

我最多可以下载 10000 行，但是我必须将块大小限制为 10，否则会出现以下错误：

DBAPIError: (pyodbc.Error) ('07002', '[07002] [Microsoft][SQL Server Native Client 11.0]COUNT 字段不正确或语法错误 (0) (SQLExecDirectW)') [SQL: '插入 [TEMP_生产实体_详细信息]

大约有 5 亿行需要下载，它只是以这个速度爬行。关于解决方法有什么建议吗？

Thanks,

在提出这个问题时，pandas 0.23.0 刚刚发布。该版本更改了默认行为.to_sql()从调用 DBAPI.executemany()构造表值构造函数 (TVC) 的方法，该构造函数通过使用单个值插入多行来提高上传速度.execute()调用 INSERT 语句。不幸的是，这种方法经常超出 T-SQL 对存储过程 2100 个参数值的限制，从而导致问题中引用的错误。

此后不久，随后发布的 pandas 添加了method=论证.to_sql()。默认值 –method=None– 恢复了之前的使用行为.executemany()，同时指定method="multi"会告诉.to_sql()使用更新的 TVC 方法。

大约在同一时间，SQLAlchemy 1.3 发布了，它添加了fast_executemany=True论证create_engine()使用 Microsoft SQL Server 的 ODBC 驱动程序，大大提高了上传速度。有了这样的增强，method=None事实证明至少和method="multi"同时避免 2100 个参数的限制。

因此，对于当前版本的 pandas、SQLAlchemy 和 pyodbc，使用的最佳方法.to_sql()与 Microsoft 的 SQL Server ODBC 驱动程序一起使用fast_executemany=True和默认行为.to_sql(), i.e.,

connection_uri = (
    "mssql+pyodbc://scott:tiger^[email protected]/db_name"
    "?driver=ODBC+Driver+17+for+SQL+Server"
)
engine = create_engine(connection_uri, fast_executemany=True)
df.to_sql("table_name", engine, index=False, if_exists="append")

对于在 Microsoft 支持其 ODBC 驱动程序的 Windows、macOS 和 Linux 变体上运行的应用程序，建议使用此方法。如果您需要使用 FreeTDS ODBC，那么.to_sql()可以调用method="multi" and chunksize=如下所述。

（原答案）

在 pandas 0.23.0 版本之前，to_sql将为 DataTable 中的每一行生成一个单独的 INSERT：

exec sp_prepexec @p1 output,N'@P1 int,@P2 nvarchar(6)',
    N'INSERT INTO df_to_sql_test (id, txt) VALUES (@P1, @P2)',
    0,N'row000'
exec sp_prepexec @p1 output,N'@P1 int,@P2 nvarchar(6)',
    N'INSERT INTO df_to_sql_test (id, txt) VALUES (@P1, @P2)',
    1,N'row001'
exec sp_prepexec @p1 output,N'@P1 int,@P2 nvarchar(6)',
    N'INSERT INTO df_to_sql_test (id, txt) VALUES (@P1, @P2)',
    2,N'row002'

大概是为了提高性能，pandas 0.23.0 现在生成一个表值构造函数来每次调用插入多行

exec sp_prepexec @p1 output,N'@P1 int,@P2 nvarchar(6),@P3 int,@P4 nvarchar(6),@P5 int,@P6 nvarchar(6)',
    N'INSERT INTO df_to_sql_test (id, txt) VALUES (@P1, @P2), (@P3, @P4), (@P5, @P6)',
    0,N'row000',1,N'row001',2,N'row002'

问题在于 SQL Server 存储过程（包括系统存储过程，例如sp_prepexec）仅限于 2100 个参数，因此如果 DataFrame 有 100 列，则to_sql一次只能插入大约20行。

我们可以计算出所需的chunksize using

# df is an existing DataFrame
#
# limit based on sp_prepexec parameter count
tsql_chunksize = 2097 // len(df.columns)
# cap at 1000 (limit for number of rows inserted by table-value constructor)
tsql_chunksize = 1000 if tsql_chunksize > 1000 else tsql_chunksize
#
df.to_sql('tablename', engine, index=False, if_exists='replace',
          method='multi', chunksize=tsql_chunksize)

然而，最快的方法仍然可能是：

将 DataFrame 转储到 CSV 文件（或类似文件），然后
让 Python 调用 SQL Serverbcp将该文件上传到表中的实用程序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

to_sql pyodbc count 字段不正确或语法错误的相关文章

使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
Python matplotlib 在鼠标悬停时不显示完整日期

我有一个数据框日期索引 and 温度值 Date Temperature 2015 10 21 9 118 2015 10 22 9 099 2015 10 23 8 945 2015 10 26 8 848 2015 10 27 8 84

随机推荐

SQL Server 中按 x 排序，然后按 y 列排序

考虑一个像这样的表 debit credit code 0 10 5 5 0 3 0 11 2 0 15 1 7 0 6 6 0 2 5 0 1 我需要生成这样的结果集首先借记然后按代码列排序 debit credit code 5 0
如何在 Flutter 中更改主题？

所以我在这里尝试获取当前主题无论是浅色还是深色所以我可以相应地改变小部件颜色但是它不起作用我使用 if 语句来知道何时是黑暗模式但它总是 False 这是代码顺便说一句它在深色和浅色主题之间切换但是当我尝试获取当前主题时
Subversion E160004 X的根节点的前身是Y但应该是Z

我继承了一个大型 Subversion 存储库 74010 修订版并且我正在尝试执行转储加载以将存储库升级到 1 8 版本以利用节省空间的功能在尝试这个过程之前我跑了svnadmin verify对有问题的存储库进行检查以确保该存
在 Google 商店中将多个 Chrome 扩展程序作为单个项目发布

Chrome 扩展程序和 Chrome 应用程序具有我需要实现某些功能的 API 但我无法仅使用扩展程序或仅使用应用程序或使用本机代码来实现此目的所以我制作了一个扩展程序和一个应用程序并使它们通过消息相互通信一切正常但现在我必须发布
将表单提交到操作 php 文件

我有一个表单当用户单击提交时我需要运行一个 php 文件下面是表单和 php 文件
Spirit X3，如何让属性类型匹配规则类型？

对于 Spirit X3 解析器的开发我想使用语义操作脚注 1 对我来说控制如何将属性存储到 STL 容器中非常重要这个问题是关于如何控制解析器属性 attr ctx 与规则类型 val ctx 匹配以便可以正确分配它也许这个问
如何构建电影数据库和用户选择？

我想创建电影数据库用户可以在其中标记他她观看和喜欢的电影 class Movies ndb Model watched ndb UserProperty liked ndb UserProperty 那行得通吗我使用谷歌帐户以后我应
PySpark - RDD 中对象的时间重叠

我的目标是根据时间重叠对对象进行分组我的每个对象rdd包含一个start time and end time 我可能效率很低但我计划做的是根据每个对象是否与任何其他对象有任何时间重叠来为每个对象分配一个重叠 id 我有时间重叠的逻辑然
为什么Spring Boot时找不到bean？

我以更方便的方式重新配置了 DAO 通过使用 JpaRepository 而不是手动执行所有样板代码但现在每次我启动 Spring 应用程序时都会出现以下错误 APPLICATION FAILED TO START Description
React-Redux 和 Connect - 为什么我的状态在点击时没有更新？

我是 redux 的新手正在编写一个简单的投票前端允许用户对他们最喜欢的框架 Angular React Vue 进行投票当用户点击他们想要投票的框架时我打算将商店中的投票增加一票我在用着combineReducers and c
多个条件Where子句

我目前有一个查询它将根据任何内容从我的数据库中提取大量信息where我想使用的条件 declare CaseNum char 7 ImportId char FormatId char SessionId char 5 set CaseN
从文件共享运行 .NET 应用程序，无需代码签名

每当从文件共享运行 NET exe 时 NET 安全模型都会引发安全错误从本地驱动器运行时不会出现该错误有谁知道无需签署代码即可解决此问题的方法吗使用 CasPol 完全信任共享更多答案在这里为什么我的 NET 应用程序在从网络驱
Windows Azure 中的持续集成服务器

我想在我的项目中使用持续集成系统但是我不想使用办公室中的服务器而是希望我的持续集成服务器在 Windows Azure 上运行有人设置过这个吗是否有在 Azure 中托管 Hudson 或 CruiseControl Net 或任
传递给函数时指向结构的指针根本不改变

stack h define MAX STACK 10 typedef int STACK ITEM typedef struct Stack STACK stack c include stack h struct Stack STACK
Firebase 根视图控制器未找到警告

我今天收到来自 Firebase Analytics 的奇怪警告这是
mysql 具有多个变量的表结构

我正在编写一个脚本它将根据不同的条件计算票数并将计数存储在汇总表中我无法理解如何构建我的表因为会有超过 1 个变量该脚本将每周运行一次每次执行都会添加新的一周一旦新的月份开始并且脚本执行就会添加新的月份一旦新年开始就会添加
将 r 中的列转换为行[重复]

这个问题在这里已经有答案了我使用代码形成了以下数据 test lt data frame dis c 10 20 30 40 dur c 30 40 60 90 method c car car Bicycle Bicycle to lo
我可以为多个 mysql 命令行调用输入一次密码，而查询事先并不知道吗？

您可以通过将查询放入文件来避免重新输入 mysql 命令行密码就我而言直到第一个查询完成后才确定后面的查询这种情况发生在非交互式脚本中因此运行 mysql 控制台不是一个选项 mysql 命令行交互有会话的概念吗或者我可以将其设置
如何按月分组并在特定月份没有值时返回零？

这是我的mysql收入表 id title description date amount 1 Vehicle sales up From new sale up 2016 09 09 9999 99 2 Jem 2 Sales From
to_sql pyodbc count 字段不正确或语法错误

我正在从 api 网站下载 Json 数据并使用 sqlalchemy pyodbc 和 pandas 的 to sql 函数将该数据插入到 MSSQL 服务器中我最多可以下载 10000 行但是我必须将块大小限制为 10 否则会出现

to_sql pyodbc count 字段不正确或语法错误

to_sql pyodbc count 字段不正确或语法错误 的相关文章

随机推荐

热门标签

to_sql pyodbc count 字段不正确或语法错误的相关文章