如何在 pyspark pandas_udf 中记录/打印消息？

2023-11-25

我已经测试过logger and print无法打印消息pandas_udf，无论是在集群模式还是客户端模式。

测试代码：

import sys
import numpy as np
import pandas as pd

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
import logging

logger = logging.getLogger('test')

spark = (SparkSession
.builder
.appName('test')
.getOrCreate())


df = spark.createDataFrame(pd.DataFrame({
    'y': np.random.randint(1, 10, (20,)),
    'ds': np.random.randint(1000, 9999, (20,)),
    'store_id' : ['a'] * 10 + ['b'] *7 + ['q']*3,
    'product_id' : ['c'] * 5 + ['d'] *12 + ['e']*3,
    })
)


@pandas_udf('y int, ds int, store_id string, product_id string', PandasUDFType.GROUPED_MAP)
def train_predict(pdf):
    print('#'*100)
    logger.info('$'*100)
    logger.error('&'*100)
    return pd.DataFrame([], columns=['y', 'ds','store_id','product_id'])


df1 = df.groupby(['store_id', 'product_id']).apply(train_predict)

另请注意：

log4jLogger = spark.sparkContext._jvm.org.apache.log4j
LOGGER = log4jLogger.LogManager.getLogger(__name__)
LOGGER.info("#"*50)

你不能用这个pandas_udf，因为此日志超出了 Spark 上下文对象，因此您无法在 udf 中引用 Spark 会话/上下文。

我知道的唯一方法是使用Excetion正如我在下面写的答案。但这很棘手并且有缺点。我想知道是否有任何方法可以在 pandas_udf 中打印消息。

目前，我尝试了 Spark 2.4 中的所有方法。

如果没有日志，就很难调试有问题的 pandas_udf。我知道可以在 pandas_udf 中打印错误消息的唯一可行方法是raise Exception。所以这样调试确实很费时间，但我知道没有更好的方法了。

@pandas_udf('y int, ds int, store_id string, product_id string', PandasUDFType.GROUPED_MAP)
def train_predict(pdf):
    print('#'*100)
    logger.info('$'*100)
    logger.error('&'*100)
    raise Exception('@'*100)  # The only way I know can print message but would break execution 
    return pd.DataFrame([], columns=['y', 'ds','store_id','product_id'])

缺点是打印消息后无法保持 Spark 运行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

apachespark

PySpark

userdefinedfunctions

如何在 pyspark pandas_udf 中记录/打印消息？的相关文章

操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
Pandas Groupby：如何使用两个 lambda 函数？

我目前可以在 Pandas 中执行以下操作但 FutureWarning 严厉地摇动着我的手指 grpd df groupby rank agg mean np mean meian np median min np min max np
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
Pandas - 使用 .isnull()、notnull()、dropna() 删除丢失数据的行不起作用

这实在是太奇怪了我尝试了几种从 pandas 数据框中删除丢失数据的行的方法但它们似乎都不起作用这是代码我只是取消注释所使用的方法之一但这些是我在不同修改中使用的三种方法这是最新的 import pandas as pd Tes
如何计算分类值（包括零出现）？

我想按月计算代码数量这是我的示例数据框 id month code 0 sally 0 s A 1 sally 0 s B 2 sally 0 s C 3 sally 0 s D 4 sally 0 s E 5 sally 0 s A 6
加快Python中一个点是否处于某个形状的顺序检查

我有一个代码用于顺序确定是否在我的中找到每对笛卡尔坐标DataFrame落入某些几何封闭区域但我怀疑它相当慢因为它不是矢量化的这是一个例子 from matplotlib patches import Rectangle r1 Re
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
导入 pandas 显示 ImportError: 无法导入名称哈希表

我已经在 python 3 3 上安装了 pandas 代码如下 import csv import pandas from pandas import DataFrame csvdata pandas read csv datafile
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue

随机推荐

border-radius 应该裁剪内容吗？

当容器有时我的容器中的内容不应该被切断吗 border radius HTML 和 CSS 示例 progressbar height 5px width 100px border radius 5px buffer width 25px
从网站打开新的 Outlook，mailTo 链接太长，*.eml 文件密件抄送字段未加载

我正在尝试打开一个 eml使用 Microsoft Outlook 2010 文件并遇到问题bcc field 这是我的eml file To email protected Subject Mail Subject cc email pr
如何向soapVars添加属性

我想创建具有如下属性的soapVars
Firebase/Android - 定期丢失数据库连接

我遵循了 Firebase 身份验证和数据库的文档全新安装后一切正常用户可以注册或登录数据按应有的方式检索按应有的方式写入超快超干净耶然后通过 android Studio 重新启动几次后数据库的东西就不再工作了重新启
即使线程中的方法已返回，为什么 Thread.Join() 仍会挂起？

我有一个 WPF 应用程序它使用一些库代码进行身份验证需要在单线程单元线程中运行我的方法是生成一个单独的线程来获取身份验证对象阻塞直到线程返回然后继续执行然而在some即使线程方法已返回我的应用程序也会挂在 Thread J
在docker中更改JAVA_HOME

我想要 dockerise 的遗留 Web 应用程序使用一些旧的类例如com sun image codec jpeg ImageFormatExceptionJava SE7 之前都支持现在在 docker 容器中默认的 jdk 获取
如何在 R 中重用管道运算符长链的部分？

我有一组管道操作员链 gt 用不同的数据集做不同的事情例如 dataset gt mutate gt filter gt rowwise gt summarise gt etc 如果我想重用这些链的某些部分有没有办法做到这一点而不仅仅
线程忽略键盘中断异常

我正在运行这个简单的代码 import threading time class reqthread threading Thread def run self for i in range 0 10 time sleep 1 print
使用 IronPython 访问 Pandas 库

我的目标是将 Python 连接到 NET 以实现流程我正在使用 IronPython Python 部分涉及一些计算我使用 Pandas 库有没有办法连接 IronPython 和 Pandas 我发现使用 IronPython 我
在 Swift 中对 PDF 进行注释/绘图

我正在编写一个应用程序其中包含多个 PDF 文档我将根据用户的输入在屏幕上显示这些文档显示后我希望允许用户在 PDF 上绘图注释然后我想保存带有绘图注释的 PDF 以供以后使用我一直在无休止地搜索有关 PDF 注释的教程但
文本提取 - 逐行

我正在使用 Google Vision API 主要是为了提取文本我工作得很好但对于我需要 API 扫描输入行的特定情况在移动到下一行之前吐出文本然而该 API 似乎正在使用某种逻辑使其从左侧从上到下扫描然后移动到右侧并进行从
NGINX：如何在一台服务器或域名中设置多个端口？

我是 Nginx 新手我的设置遇到问题我希望我的服务器在公共上使用多个端口运行例如 server listen 443 ssl server name
D 中异常处理的开销

在 D2 编程语言中使用异常处理对性能有何影响尤其如果我不写异常处理代码怎么办如果我这样做了但没有抛出任何异常怎么办如果我这样做并且抛出异常怎么办异常处理是否会导致错过任何优化机会是否可以像许多大多数 C 实现中那样禁用异
无法在“ApplicationUser”上配置密钥，因为它是派生类型，但 ApplicationUser 上没有密钥配置

我正在尝试使用 ApplicationUser 自定义 IdentityUser 我按照微软文章中的步骤操作但是当我运行应用程序时我在方法上收到此错误base OnModelCreating modelBuilder System In
ES6 对象中的方法：使用箭头函数

在 ES6 中这两个都是合法的 var chopper owner Zed getOwner function return this owner 并且作为简写 var chopper owner Zed getOwner return
如何使用 mongo Java 驱动程序 3.0+ 检查文档是否存在于集合中

使用新的3 0 java驱动程序来自 mongo 检查文档是否存在于集合中的最佳方法是什么我看过here并尝试做类似的事情我只做到了这一点 FindIterable
如何仅删除字符串中的 html 标签？

我已经编写了删除 HTML 标签的代码但它也删除了a
除了日志记录和事务管理之外，AOP 还有哪些实际应用？

我理解这些原理但我很难看出实际应用在哪些地方请赐教询问任何支持人员日志记录是notAOP的一个很好的应用他们不关心应用程序内部调用什么方法他们关心应用程序正在执行的重要操作并需要以他们理解的方式呈现该信息要创建像样的日志您
3DSv2 Sagepay 直接集成基础知识

协议 4 00 的文档可能会更有帮助对于每个努力让 3DSV2 工作的人来说我希望任何已经设法让 3DSV2 工作的人能够详细阐述基础知识我将根据我的理解总结流程请大家帮忙纠正必要的地方并添加任何问题例如从 VPSTx Id 中删
如何在 pyspark pandas_udf 中记录/打印消息？

我已经测试过logger and print无法打印消息pandas udf 无论是在集群模式还是客户端模式测试代码 import sys import numpy as np import pandas as pd from pyspa

如何在 pyspark pandas_udf 中记录/打印消息？

如何在 pyspark pandas_udf 中记录/打印消息？ 的相关文章

随机推荐

热门标签

如何在 pyspark pandas_udf 中记录/打印消息？的相关文章