pandas udf showString 简单示例错误

2024-01-01

我开始在使用此“身份”pandas udf 在 EMR 集群上运行的 Pyspark Jupyter 笔记本上使用 pandas udf，并且收到以下错误：

@pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)
# Input/output are both a pandas.DataFrame
def pudf(pdf):

    return pdf

df.filter(df.corp_cust=='LO').groupby('corp_cust').apply(pudf).show()

调用 o388.showString 时出错。：org.apache.spark.SparkException：由于阶段失败而中止作业：阶段113.0中的任务0失败4次，最近一次失败：阶段113.0中丢失任务0.3（TID 1666，ip-10-23-226-64.us .scottsco.com，执行器 1): java.lang.IllegalArgumentException 在 java.nio.ByteBuffer.allocate(ByteBuffer.java:334) 在 org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) 在 org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) 在 org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132)

我可以跑df.filter(df.corp_cust=='LO').show()成功了，所以这让我觉得从 pandas 到 pyspark 数据帧的转换过程中，事情正在“刹车”。

该数据框有几个 StringType 和 DecimalType 列。我还尝试将 udf 中的字符串列编码为“utf-8”并得到相同的错误。

关于如何解决这个问题有什么建议吗？

这显然是 pyarrow 版本 0.15 的一个问题[1]，导致 pandas udf 出现错误。您可以尝试通过安装 Pyarrow 0.14.1 或更低版本来更改版本。

  sc.install_pypi_package("pyarrow==0.14.1")

[1]https://issues.apache.org/jira/browse/SPARK-29367 https://issues.apache.org/jira/browse/SPARK-29367

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

jupyter

userdefinedfunctions

amazonemr

pandas udf showString 简单示例错误的相关文章

使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
将 geojson 文件下载到 jupyter 中的 folium 中

我想要一张欧洲地图作为 json 文件这样我就可以使用 geojson 将其作为图层放置在 Folium 地图上这样我就可以将我的数据集嵌入到其中以显示欧洲哪个国家的酒精含量最高我在从 GitHub 获取 json 文件以在 jy
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
DBCC命令是存储过程还是函数？

应该是什么DBCC命令被调用 DBCC 过程还是 DBCC 函数这很令人困惑因为DBCC PAGE可以在不加前缀的情况下执行EXEC语句很像存储过程但EXEC DBCC PAGE 1 1 1 3 抛出错误语法错误消息 156 关键
df.style.apply 在显示中居中显示多索引值

当我跑步时 import pandas as pd from IPython display import display df pd DataFrame a index pd MultiIndex from product 0 1 3 c
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
如何在 Jupyter Notebook 中选择 conda 环境

我安装了 Anaconda 5 3 和 Python 3 7 根环境之后我使用 Python 3 6 创建了一个新环境 py36 我激活了新环境activate py36 conda env list表明环境是活跃的但是当我启动 Jup
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma

随机推荐

即使 chrome 关闭也能运行的 Chrome 扩展

我有一个 chrome 扩展当 chrome 打开时运行良好问题出在 chrome 应用程序关闭时我需要使扩展程序始终运行无论 chrome 浏览器打开还是关闭有什么方法可以让扩展程序即使在 chrome 关闭时也能运行吗这正是
为什么“bodyPart.isMimeType("text/plain")”给出错误“无法加载主体结构”？

我正在使用 Java 创建一个应用程序以通过 Java 从我的 GoDaddy 网络邮件读取邮件我为此使用了 javax mail 当我调试程序时它在以下行给出错误 bodyPart isMimeType text plain 出乎意
C++11 编写模板以选择更大整数类型的方法？

在 C 11 的编译时在一个带有 2 个模板参数的模板函数中这两个模板参数都必须是无符号整数类型我希望局部变量的类型为两个模板参数中具有更多位的一个的类型在 C 03 中我可能会写这样的东西 template
为什么 Spring 4 在一个上下文中只允许有一个 TaskScheduler？

我们有一个 Spring Web 应用程序正在从 Spring 3 2 移植到 Spring 4 当 Web 应用程序启动时我们的应用程序有多个子上下文组装到单个运行时上下文中我们在两个子上下文中使用单独的 TaskScheduler
liquibase 的枚举数据类型

我目前正在处理 liquibase xml 文件来创建表 table a 我的领域之一是
在名称之间放置逗号

我试图找出数据框中是否出现某些模式假设我有以下模式词典注意 james 与 jamesj patterns lt c john jack james jamesj jason 我的实际数据框 date frame 如下所示 id na
如何更改工具栏文字大小？

我想改变文本的大小Toolbar 因为在我的申请中 Toolbar横向和纵向模式下的文本大小不同是否可以更改文本中的文本大小Toolbar Use app titleTextAppearance https developer andro
如何通过 shell_exec 在 php-apache docker 容器中重新加载 apache？

我创建了多个虚拟主机需要重新加载 apache 以使虚拟主机可用但是shell exec service apache2 reload 似乎在容器内不起作用根据我的理解是 php apache link https hub docke
在另一个js文件中加载外部js文件[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我有这个文件包含在我的 html 中我想从另一个 javascript 调用它请建议我该怎么做我想将它包含在我的js文件中而不是ht
ScrollView 与 flex 1 使其不可滚动

我正在尝试在ScrollView 并且只要 ScrollView 有flex 1 the 内部滚动不起作用这是博览会小提琴您可以运行此代码并使用它 https snack expo io SySerKNp https snack exp
C++ map<字符，静态方法指针>？ [复制]

这个问题在这里已经有答案了我编写了一个非常基本的表达式解析器我希望它是可扩展的以便它可以解析用户定义的表达式类型例如如果在解析时我遇到了字符 lt 我想创建一个类的实例用于解析以此字符开头的表达式我有两个问题如何将字符与静态
有没有办法自动生成有效的算术表达式？

我目前正在尝试创建一个 Python 脚本它将自动生成有效的空格分隔算术表达式但是我得到的示例输出如下所示 32 42 95 24 53 21 虽然空括号对我来说完全没问题但我无法在计算中使用这个自动生成的表达式因为 24 和 5
ORA-01704: 字符串文字太长 '在 Oracle XMLTYPE 列类型中插入 XML 文档时出错'

当我尝试将 SQL 表中的数据插入 Oracle 表时出现此错误 ORA 01704 字符串文字太长在我的 Oracle 表中有一列具有 XMLTYPE 列类型当我创建表时我指定了 XML 列如下所示 CREATE TABLE
phpmyadmin、neginx error.log - 检查组 www-data 是否具有读取权限和 open_basedir

我在 phpmyadmin 网站上有此消息 phpMyAdmin 配置存储未完全配置一些扩展功能已被停用要了解原因请点击此处在单击此处页面上我有以下内容页面打印屏幕 https www dropbox com s vhh4v
在 Swift 中从 AVCaptureSession 捕获静态图像

我有一个AVCaptureSession在 UIView 中显示实时视频我想将视频流的一帧保存为 UIImage 我一直在剖析我在互联网上不断看到的代码但我在第一行遇到了问题 if let stillOutput self stillI
在打字稿文件上启用 Eslint

在 webstorm eslint 设置中有一个额外 eslint 选项字段在此我补充道 ext ts 来自埃斯林特文档 http eslint org docs user guide command line interface
乘客问题：“没有要加载的文件”--/config/environment

我一直在研究这个问题并到处发现类似问题的参考资料但尚未找到解决方案我已经安装了 guest 2 2 11 和 nginx 0 7 64 当我启动并点击 Rails URL 时我收到一个错误页面通知我加载错误没有要加载的文件 pa
按下“Ctrl + C”按钮处理 C# 控制台应用程序

如何处理同时按下的两个按钮 Ctrl C 不是在 WindowsForms 应用程序中而是在控制台 C 应用程序中我怀疑你想设置Console TreatCtrlCAsInput http msdn microsoft com en u
UIBarButton 没有改变

IBOutlet weak var playStopButton UIBarButtonItem var playStopArray UIBarButtonSystemItem Pause UIBarButtonSystemItem Pla
pandas udf showString 简单示例错误

我开始在使用此身份 pandas udf 在 EMR 集群上运行的 Pyspark Jupyter 笔记本上使用 pandas udf 并且收到以下错误 pandas udf df schema PandasUDFType GROUPED

pandas udf showString 简单示例错误

pandas udf showString 简单示例错误 的相关文章

随机推荐

热门标签

pandas udf showString 简单示例错误的相关文章