Python 中 Postgres 的 jsonb 数组的正确格式是什么？

2024-02-29

我有一个看起来像的架构

Column                  |            Type             |
-------------------------------------------------------
message_id              | integer                     | 
 user_id                | integer                     |
 body                   | text                        |
 created_at             | timestamp without time zone |
 source                 | jsonb                       |
 symbols                | jsonb[]                     |

我正在尝试使用 psycopg2 通过 psycopg2.Cursor.copy_from() 插入数据，但我遇到了很多问题，试图弄清楚 jsonb[] 对象应该如何格式化。当我直接列出 JSON 对象时，出现如下错误

psycopg2.errors.InvalidTextRepresentation: malformed array literal: "[{'id': 13016, 'symbol':
.... 
DETAIL:  "[" must introduce explicitly-specified array dimensions.

我在双引号和花括号上尝试了多种不同的转义。如果我对数据执行 json.dumps() ，则会收到以下错误。

psycopg2.errors.InvalidTextRepresentation: invalid input syntax for type json
DETAIL:  Token "'" is invalid.

此错误是从此代码片段收到的

messageData = []
symbols = messageObject["symbols"]
newSymbols = []
for symbol in symbols:
    toAppend = symbol
    toAppend = refineJSON(json.dumps(symbol))
    toAppend = re.sub("{", "\{", toAppend)
    toAppend = re.sub("}", "\}", toAppend)
    toAppend = re.sub('"', '\\"', toAppend)
    newSymbols.append(toAppend)
messageData.append(set(newSymbols))

我也愿意将列定义为不同的类型（例如文本），然后尝试转换，但我也无法做到这一点。

messageData 是调用 psycopg2.Cursor.copy_from() 的辅助函数的输入

def copy_string_iterator_messages(connection, messages, size: int = 8192) -> None:
    with connection.cursor() as cursor:
        messages_string_iterator = StringIteratorIO((
            '|'.join(map(clean_csv_value, (messageData[0], messageData[1], messageData[2], messageData[3], messageData[4], messageData[5], messageData[6], messageData[7], messageData[8], messageData[9], messageData[10], 
                messageData[11],
            ))) + '\n'
            for messageData in messages
        ))
        # pp.pprint(messages_string_iterator.read())
        cursor.copy_from(messages_string_iterator, 'test', sep='|', size=size)
        connection.commit()

编辑：根据迈克的输入，我更新了代码以使用execute_batch()，其中消息是包含每条消息的messageData的列表。

def insert_execute_batch_iterator_messages(connection, messages, page_size: int = 1000) -> None:
    with connection.cursor() as cursor:
        iter_messages = ({**message, } for message in messages)

        print("inside")

        psycopg2.extras.execute_batch(cursor, """
            INSERT INTO test VALUES(
                %(message_id)s,
                %(user_id)s,
                %(body)s,
                %(created_at)s,
                %(source)s::jsonb,
                %(symbols)s::jsonb[]
            );
        """, iter_messages, page_size=page_size)
        connection.commit()

你的问题让我很好奇。下面这个对我有用。我怀疑是否可以解决转义到 CSV 或从 CSV 转义的问题。

我的桌子：

=# \d jbarray
                             Table "public.jbarray"
 Column  |  Type   | Collation | Nullable |               Default
---------+---------+-----------+----------+-------------------------------------
 id      | integer |           | not null | nextval('jbarray_id_seq'::regclass)
 symbols | jsonb[] |           |          |
Indexes:
    "jbarray_pkey" PRIMARY KEY, btree (id)

完全独立的Python代码：

mport json
import psycopg2

con = psycopg2.connect('dbname=<my database>')

some_objects = [{'id': x, 'array': [x, x+1, x+2, {'inside': x+3}]} for x in range(5)]

insert_array = [json.dumps(x) for x in some_objects]
print(insert_array)

c = con.cursor()

c.execute("insert into jbarray (symbols) values (%s::jsonb[])", (insert_array,))

con.commit()

Result:

=# select * from jbarray;
-[ RECORD 1 ]-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
id      | 1
symbols | {"{\"id\": 0, \"array\": [0, 1, 2, {\"inside\": 3}]}","{\"id\": 1, \"array\": [1, 2, 3, {\"inside\": 4}]}","{\"id\": 2, \"array\": [2, 3, 4, {\"inside\": 5}]}","{\"id\": 3, \"array\": [3, 4, 5, {\"inside\": 6}]}","{\"id\": 4, \"array\": [4, 5, 6, {\"inside\": 7}]}"}

=# select id, unnest(symbols) from jbarray;
-[ RECORD 1 ]----------------------------------------
id     | 1
unnest | {"id": 0, "array": [0, 1, 2, {"inside": 3}]}
-[ RECORD 2 ]----------------------------------------
id     | 1
unnest | {"id": 1, "array": [1, 2, 3, {"inside": 4}]}
-[ RECORD 3 ]----------------------------------------
id     | 1
unnest | {"id": 2, "array": [2, 3, 4, {"inside": 5}]}
-[ RECORD 4 ]----------------------------------------
id     | 1
unnest | {"id": 3, "array": [3, 4, 5, {"inside": 6}]}
-[ RECORD 5 ]----------------------------------------
id     | 1
unnest | {"id": 4, "array": [4, 5, 6, {"inside": 7}]}

如果插入性能对您来说太慢，那么您可以使用prepared statement with execute_batch() 如此处记录的 https://www.psycopg.org/docs/extras.html。我用过这个组合，速度非常快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Arrays

postgresql

psycopg2

jsonb

Python 中 Postgres 的 jsonb 数组的正确格式是什么？的相关文章

在这种情况下 b 是标量对象吗？

include
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
Twython - 如何使用媒体 url 更新状态

在我的应用程序中我允许用户在 Twitter 上发帖现在我想让他们通过媒体更新他们的状态 In twython py我看到一个方法update status with media从文件系统读取图像并上传到 Twitter 我的图像不在文
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
为什么你可以在字符串上重载 __radd__ 而不是 __rmod__ ？

在Python中您可以覆盖右和左加法运算符
如何配置应用程序中的所有记录器

Python 的日志记录模块允许模块或类定义自己的记录器不同的记录器可以有不同的处理程序其中一些可能选择记录到文件而另一些则选择记录到标准输出现在我的应用程序使用其中几个模块每个模块都有自己的记录器这些记录器具有各种处理程序
Unpivot Pandas 数据

我目前有一个DataFrame布置为 Jan Feb Mar Apr 2001 1 12 12 19 2002 9 2003 我想将数据逆透视使其看起来像 Date Value Jan 2001 1 Feb 2001 1 Mar 200
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
使用 asyncio 时应该如何创建属性？

在创建使用 asyncio 的类时我发现自己处于属性 getter 需要进行 io 操作的情况因此该函数应该是一个协程然而等待房产的感觉却很不寻常这是我的意思的一个最小的例子该代码有效并且可以运行 import asyncio
将 celery 与 Flask 应用程序上下文一起使用会导致“弹出错误的应用程序上下文”。断言错误

我或多或少使用设置来使用您的 Flask 应用程序上下文来运行 Celery 任务 http flask pocoo org docs 0 10 patterns celery http flask pocoo org docs 0 10
如何从主机连接到 Docker Postgres 容器

我按照以下说明搭建了一个 Rails 开发环境https docs docker com compose rails https docs docker com compose rails 它可以工作但我无法从主机连接到 Postgres
Python中矩阵元素的双重求和

基于下面的简化示例我想在我的代码中 from sympy import import numpy as np init printing x y symbols x y mat Matrix x 1 1 y X 1 2 3 Y 10 20
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
重定向到破折号中的 url

我正在使用 dash 构建一个仪表板每当单击特定数据点时我都会创建一个唯一的 url 如何将用户重定向到此创建的 url 我正在使用下面给出的代码每当有人单击任何数据点时单击事件就会触发并执行回调函数 app layout html

随机推荐

Jenkins：无法创建 Android 模拟器，无法解析 AVD 配置文件

我在本地 PC 上安装了 Jeknins 我成功地将 Android 应用程序代码与 github 集成并生成 apk 文件作为工件问题出在测试用例的执行上我无法启动 Android 模拟器它说 sdk tools android b
如何在SQL Server Management Studio中快速编辑表中的值？

除了对象资源管理器中的上下文菜单 gt 编辑前 200 行之外是否有一种快速方法可以在编辑模式下打开表格在其中可以快速修改单元格的值我需要能够翻阅前 200 行而且我不想为我需要做的每个小调整编写插入脚本我不明白为什么 SM
UINavigationControllerDelegate 方法被调用两次

我建立了一个非常简单的项目没有故事板一个窗口和一个 UINavigationController 其中包含一个普通的旧 UIViewController 作为 rootViewController 在 AppDelegate 中我将
实体框架更新 edmx 会创建重复的属性

当我从数据库更新 edmx 时我在多对多关系表上添加了主键我得到重复的属性例如 InstantceType 和 InstantType1 对于数据库的每次刷新我都会获得一个新属性知道是什么原因造成的吗添加密钥后 EF 模型可能变
Elasticsearch：无法导入记录器（答案适用于其他导入）

客观的使用 Elasticsearch 的记录器功能更好地调试服务器端 Groovy 脚本代码问题总结无法导入org elasticsearch common logging Details 使用Elasticsearch 2 3 脚
java.lang.ClassCastException：java.lang.String无法转换为javax.mail.Multipart

下面是我从 java 教程中获取的代码然而当我尝试接收从计算机发送的普通消息而不是通过 GMail 发送时我的问题就出现了如果我通过 GMail 收到电子邮件它运行正常并返回邮件但是尝试从传统桌面邮件客户端检索邮件会返回 E
在 iPhone 和 Android 上通过 Phonegap 使用会话变量和 cookie

我在获取 PHP 会话变量例如 SESSION username 以在通过 Phonegap 应用程序的 ajax 调用启动的 PHP 服务器端代码中工作时遇到问题在研究这个问题时我发现关于是否可以使用会话变量和 cookie 的建议
如何在意图中广播可分割对象？

我是 Java Android 新手正在尝试开发一个与 USB CAN 总线适配器通信的 adroid 应用程序我通过 CANBusController 类以字符串形式从适配器接收消息并且构建了一个可分包类 CANMessage 它将
当按照屏幕上的说明推送新的存储库时，为什么 Github 要求输入用户名/密码？

我是 github 上一个组织的所有者刚刚创建了一个存储库并尝试推送但我遇到了一个问题它要求我提供用户名即使我可以使用 SSH 就好 ssh T email protected cdn cgi l email protection
AWS Cloudformation：将环境变量作为参数传递给 lambda 函数

我正在为 lambda 创建云层我想要一个创建 lambda 的通用 lambda 脚本我从外部注入环境参数时遇到问题我想将键值对对象作为参数传递有人可以告诉我该怎么做吗我在下面突出显示了它 Variables String
Kubernetes 中的真正负载均衡？

什么是负载均衡器负载平衡改善了多个工作负载的分配计算资源例如计算机计算机集群网络链路中央处理单元或磁盘驱动器节点端口 NodePort 不是负载均衡器我知道kube proxy一旦流量进入集群内部就对 Pod 之间的流量
无法找到内容类型 application/json 和类型类 java.lang.String 的 MessageBodyReader

我正在使用 RestEasy 客户端与杰克逊提供商并收到上述错误客户端代码是 ClientRequest request new ClientRequest url request accept MediaType APPLICATION
EWS SearchFilter.ContainsSubstring 用于过滤发件人电子邮件地址

我正在尝试使用 SearchFilter ContainsSubstring 过滤 Exchange Web 服务上的电子邮件如下所示 sfilter New SearchFilter ContainsSubstring EmailMes
SFTP 读取目录中的所有文件

我已使用 SFTP 创建了成功的连接com jcraft jsch 我还在下面创建了一个目录文件夹HostDir like channelSftp mkdir sftp test 现在我想读取主机目录下的所有文件文件夹名称我没有看到任何
整个数组上的多键索引

MongoDB 的docs http docs mongodb org manual core index multikey 解释多键索引考虑一下这个comment文档 id ObjectId title Grocery Quality
Xcode 4.2。问题：标准（armv7）

我想在 App Store 中更新我的应用程序但当我尝试上传它时我收到一条错误消息指出我的应用程序不支持 armv6 问题是我什至不能选择 Armv6 作为架构我有以下架构设置架构标准 armv7 基础 SDK 最新 iOS i
如何在javascript中检查session是否为空？

如何在javascript中检查session是否为空这是正确的方法吗 if alert null session 这是一个解决方案将每 500 毫秒测试一次用户会话是否已过期 function CheckSession var ses
MYSQL特殊字符问题

这个问题困扰我很久了我在网上搜索了很多次解决方案尝试了很多方法但没有找到合适的解决方案我真的不知道该怎么办如果你能帮助我我将非常感激抱歉我的英语不好问题如何解决输入存档和 MYSql 表之间的字符集不兼容问题 Proble
Mysql删除具有给定meta_key的所有帖子[重复]

这个问题在这里已经有答案了我有一个 WordPress 网站其中有一些元密钥分配给我的帖子我想删除 mysql 中所有包含以下内容的帖子meta key value acest meta 使用这个 SQL 命令 SELECT post
Python 中 Postgres 的 jsonb 数组的正确格式是什么？

我有一个看起来像的架构 Column Type message id integer user id integer body text created at timestamp without time zone source

Python 中 Postgres 的 jsonb 数组的正确格式是什么？

Python 中 Postgres 的 jsonb 数组的正确格式是什么？ 的相关文章

随机推荐

热门标签

Python 中 Postgres 的 jsonb 数组的正确格式是什么？的相关文章