Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化

2024-05-01

给定一个表格设计不可为 null 的 uuid列和a可为空的 uuid列，如何使用 python 3.7.9 与 Pyspark 2.4.3 数据帧和 postgresql-42.2.18.jar 驱动程序进行插入？

table_df = spark.read.format('jdbc) \
                     .option('driver', 'org.postgresql.Driver') \
                     .option('dbtable', 'example_table') \
                     .load()

table_df.printSchema()

root
 |-- id: string (nullable = false)
 |-- created: timestamp (nullable = true)
 |-- modified: timestamp (nullable = true)
 |-- example_uuid: string (nullable = true)


from pyspark.sql.functions import when, lit, col

from pyspark.sql.types import NullType, StringType

def replace(column, value):
  return when (column == value, lit(None).cast(NullType())).otherwise(column.cast(StringType()))

example_df = tasklog_df.withColumn("example_uuid", replace(col("example_uuid"), "NULL"))

example_df.write.mode('append').format('jbdc') \
                .option('driver', 'org.postgresql.Driver')\
                .option('stringtype', 'unspecified') \
                .save()

这会导致 Pyspark 尝试插入

INSERT INTO example_table
 ("id",
 "created",
 "modified",
 "example_uuid") 
VALUES 
 ('b49a90aa-a415-4aeb-a7ed-bfc42e43f5c7',
 '2020-03-29 02:00:11.06534-07',
 '2020-03-29 02:00:11.065361-07',
 NULL)

这导致了臭名昭著的

ERROR: column "example_uuid" is of type uuid but expression is of type character
  Hint: You will need to rewrite or cast the expression.

我已经投射了数据。 Pyspark 未生成正确的 INSERT 语句或 postgres 驱动程序正在处理该单词NULL作为字符而不是关键字。我需要使用.option('stringtype', 'unspecified')为了不让 Pyspark 抱怨id列是一个uuid.

The lit(None).cast(NullType())似乎什么也没做。 pyspark.sql.types 中没有 uuid 类型的条目。

如果没有option('stringtype', 'unspecified')然后 Pyspark 抛出错误：

Caused by: org.postgresql.util.PSQLException: ERROR: column "id" is of type uuid but expression is of type character varying
  Hint: You will need to rewrite or cast the expression.

剩下的唯一方法似乎是将数据帧拆分为两个数据帧，一个数据帧的 example_uuid 字段包含 NULL，另一个数据帧的 example_uuid 字段是 uuid。然后从数据帧中删除带有 NULL 的 example_uuid 字段，以便在保存到表时不会引发错误。当 Pyspark 应该只支持时，这似乎是浪费了很多精力uuid类型。意见或建议？

我个人最终分割了我的写入并依赖数据库来设置空值。

insert(to_insert.where(F.col("col_name").isNull()).drop("col_name"))
insert(to_insert.where(F.col("col_name").isNotNull()))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化的相关文章

使用 pygame 显示 unicode 符号

我检查了其他答案但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font
PostgreSQL 和锁定

希望一些比我更聪明的 DBA 可以帮助我找到一个好的解决方案来完成我需要做的事情为了便于讨论我们假设我有一个名为 work 的表其中包含一些列其中一列表示给定客户端对该行工作的所有权场景是我将连接 2 个客户端并轮询表以查找要完
如何以“正确”的方式处理带有空字节的 Python unicode 字符串？

Question PyWin32 似乎很乐意将 null 终止的 unicode 字符串作为返回值我想以正确的方式处理这些字符串假设我得到一个像这样的字符串 u C Users Guest MyFile asy x00 x00sy
opencv水印周围的轮廓

我想在图像中的水印周围画一个框我已经提取了水印并找到了轮廓但是不会在水印周围绘制轮廓轮廓是在我的整个图像上绘制的请帮我提供正确的代码轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
用缺失的日期填充其他列 Nan Pandas DataFrame

我实际上是从几个 Excel 文件中提取数据来监控我的每日卡路里摄入量我设法使用列表理解来生成日期我尝试使用合并或连接但它不起作用 ValueError 您正在尝试合并对象和 float64 列 date list 2021 05 2
我的用例可以合并到单个查询中而不影响性能吗？

我主要着眼于改善表现查询的内容以及是否能够解决单一查询对于我的用例之一解释如下涉及到2张表 Table 1 EMPLOYEE column1 column2 email1 email2 column5 column6 Table 2 E
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
.pyx 文件出现未知文件类型错误

我正在尝试构建一个包含 pyx 文件的 Python 包 pyregion 但在构建过程中出现错误检查以下输出 python setup py build running build running build py creating b
SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

此问题与 smtplib 的 SMTP SSL 连接有关当与 SMTP 无 ssl 连接时它正在工作在 SMTP SSL 中尝试相同的主机和端口时出现错误该错误仅基于主机 gmail 设置也工作正常请检查下面的示例如果 Out
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
ANTLR 获取并拆分词法分析器内容

首先对我的英语感到抱歉我还在学习我为我的框架编写 Python 模块用于解析 CSS 文件我尝试了 regex ply python 词法分析器和解析器但我发现自己在 ANTLR 中第一次尝试我需要解析 CSS 文件中的注释
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
在 Django 查询中使用 .extra(select={...}) 引入的值上使用 .aggregate() ？

我正在尝试计算玩家每周玩游戏的次数如下所示 player game objects extra select week WEEK games game date aggregate count Count week 但姜戈抱怨说 Fiel
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这

随机推荐

每次使用 COUNT() 函数，还是存储该值并将其加一？

我有一个带有用户投票表和用户表的数据库我认为数据库会在短时间内变得相当大所以我想使用最有效的方法我想我可以每次使用投票表中的 WHERE 语句来 COUNT 投票数或者我可以将分数存储在用户表中每次投票时将其增加
C++：ostream 和 ostringstream 有什么区别？

ostream 和 ostringstream 有什么区别你什么时候会使用其中一种而不是另一种简单地说 ostringstream提供了一个streambuf ostream要求用户提供一份要理解其中的含义有必要了解一点流是如何工
当 document.body 长度超过 30,000 像素时，HTML2CANVAS 不会渲染它

有办法解决这个问题吗当 document body 高度超过 30 000 像素时 html2canvas 不会呈现或者我可以只渲染当前视口吗用户可以看到什么请帮忙为了能够仅渲染当前活动视口您可以使用以下命令初始化 html2c
UICollectionViewCell - 内容不会与单元格的 contentView 一起动画

问题看起来像这样 http i imgur com 5iaAiGQ mp4 https i imgur com 5iaAiGQ mp4 红色是cell contentView的颜色这是代码 https github com nezhybo
Sencha Cmd v4.0.2.67 创建后台进程失败

我有一个使用 Sencha Command v4 0 2 67 生成的单页 ExtJS 应用程序我正在尝试使用 Sencha Command v4 0 2 67 和以下命令进行构建 sencha app refresh sencha ap
c# Abstract Generic Class继承自Abstract Generic Class

我正在尝试创建一个抽象泛型类它继承自另一个抽象泛型类这是我到目前为止所拥有的 public abstract class BaseClass public long Id get private set public BaseClass
Mule 处理策略 - 从同步流调用异步私有流

我试图从主同步流中调用异步私有流如下所示
自定义 web.config 部分处理程序

我之前设计过一个自定义部分处理程序但我遇到了一个我似乎无法想到的问题我有一个像这样的配置部分
什么时候使用 IoC 合适？

我了解 IoC 容器是什么并且一直在阅读结构图这项技术似乎很容易使用我的问题是使用 IoC 容器的适当粒度级别是多少我认为 IoC 的应用可能有以下级别打破所有对象之间的所有依赖关系当然有点过分了打破所有主要对象例如域对象
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
无法在 Docker 下运行 AWS SAM CLI

我正在尝试创建一个 Docker 镜像AWS SAM CLI https github com awslabs aws sam cli 但调用任何函数都会出现错误无法导入模块 index 我可以在 Docker 之外成功运行相同的测试用例
如何在Android应用程序中添加g729编解码器？

我正在开发一个用于拨打和接听电话的 SIP 应用程序我想在我的应用程序中添加 G729 编解码器目前我正在对开源项目进行分析SipDroid http code google com p sipdroid 如果我想让该应用程序支持 G7
ggplot2 每个方面的不同因子顺序

我正在尝试创建一个克利夫兰点图在本例中为 J 和 K 给出两个类别问题是元素 A B C 都在这两个类别中所以 R 一直放屁我做了一个简单的例子 x lt c LETTERS 1 10 LETTERS 1 3 LETTERS 11
如何以编程方式停止/退出/终止 dotnet core HostBuilder 控制台应用程序？

我正在尝试创建一个 dotnet 核心控制台应用程序该应用程序是一个简单的实用程序应用程序应该启动执行其操作并退出使用 Visual Studio 生成的标准控制台应用程序模板可以轻松实现但现在我们有了 HostBuilder 它
提取字符串中最后一个句点后的文本[重复]

这个问题在这里已经有答案了我意识到这个问题对于大多数正则表达式大师来说可能看起来非常简单但是回顾类似的问题并没有得出解决方案我有一个电子邮件地址向量称为email并希望在每个最后一个句点之后提取文本举例来说 email lt c
[BotFramework]：如何修复：在 V4 中开发的 C# WebChatBot 中，欢迎消息未向用户显示，但在模拟器中显示？
数组中 2 个百分位之间的平均元素

我有 2 个长度为 200 的向量例如 A 和 B 然后我使用以下方法找到数组 A 的每第二个百分位数 A1 prctile A 1 2 100 1 这样A1是一个长度为50的数组现在我想找到A1中每两个元素内的A元素的平均值即A的第
强制 Access 忘记链接表的用户名和密码

我有一个通过链接服务器连接到 SQL Server 的 MS Access 数据库链接表是使用修改后的添加的AttachDSNLessTable程序 stConnect ODBC DRIVER stDriverName SERVER st
Slick中的动态查询参数（排序）

我正在尝试将异常查询转换为平滑查询Play 2 3 示例之一 https github com playframework playframework tree 2 3 x samples scala computer database 但
Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化

给定一个表格设计不可为 null 的 uuid列和a可为空的 uuid列如何使用 python 3 7 9 与 Pyspark 2 4 3 数据帧和 postgresql 42 2 18 jar 驱动程序进行插入 table df spa

Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化

Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化 的相关文章

随机推荐

热门标签

Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化的相关文章