Pyspark：如何处理 python 用户定义函数中的空值

2024-02-16

我想使用一些非 pyspark 原生的字符串相似性函数，例如数据帧上的 jaro 和 jaro-winkler 度量。这些在 python 模块中很容易获得，例如jellyfish。对于没有的情况，我可以写 pyspark udf 很好null存在价值观，即将猫与狗进行比较。当我将这些 udf 应用于数据时null价值观存在，但不起作用。在像我正在解决的问题中，其中一个字符串是很常见的null

我需要帮助让我的字符串相似性 udf 一般工作，更具体地说，在其中一个值是的情况下工作null

我编写了一个 udf，它在输入数据中没有空值时起作用：

from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType
import pyspark.sql.functions as F
import jellyfish.cjellyfish

def jaro_winkler_func(df, column_left, column_right):

    jaro_winkler_udf = udf(f=lambda s1, s2: jellyfish.jaro_winkler(s1, s2), returnType=DoubleType())

    df = (df
          .withColumn('test',
                      jaro_winkler_udf(df[column_left], df[column_right])))

    return df

输入和输出示例：

+-----------+------------+
|string_left|string_right|
+-----------+------------+
|       dude|         dud|
|       spud|         dud|
+-----------+------------+

+-----------+------------+------------------+
|string_left|string_right|              test|
+-----------+------------+------------------+
|       dude|         dud|0.9166666666666666|
|       spud|         dud|0.7222222222222222|
+-----------+------------+------------------+

当我对具有空值的数据运行此操作时，我会得到通常的大量火花错误，最适用的似乎是TypeError: str argument expected。我认为这是由于null数据中的值，因为它在没有数据时起作用。

我修改了上面的函数来检查两个值是否不为空，并且只有在这种情况下才运行该函数，否则返回 0。

from pyspark.sql.functions import udf
from pyspark.sql.types import DoubleType
import pyspark.sql.functions as F
import jellyfish.cjellyfish

def jaro_winkler_func(df, column_left, column_right):

    jaro_winkler_udf = udf(f=lambda s1, s2: jellyfish.jaro_winkler(s1, s2), returnType=DoubleType())

    df = (df
       .withColumn('test',
                   F.when(df[column_left].isNotNull() & df[column_right].isNotNull(),
                          jaro_winkler_udf(df[column_left], df[column_right]))
                   .otherwise(0.0)))

    return df

但是，我仍然遇到与以前相同的错误。

示例输入以及我希望的输出：

+-----------+------------+
|string_left|string_right|
+-----------+------------+
|       dude|         dud|
|       spud|         dud|
|       spud|        null|
|       null|        null|
+-----------+------------+

+-----------+------------+------------------+
|string_left|string_right|              test|
+-----------+------------+------------------+
|       dude|         dud|0.9166666666666666|
|       spud|         dud|0.7222222222222222|
|       spud|        null|0.0               |
|       null|        null|0.0               |
+-----------+------------+------------------+

我们将稍微修改一下您的代码，它应该可以正常工作：

@udf(DoubleType())
def jaro_winkler(s1, s2):
    if not all((s1, s2)):  # or, if None in (s1, s2):
        out = 0
    else:
        out = jellyfish.jaro_winkler(s1, s2)
    return out


def jaro_winkler_func(df, column_left, column_right):
    df = df.withColumn("test", jaro_winkler(df[column_left], df[column_right]))
    return df

根据预期的行为，您需要更改测试：

if not all((s1, s2)):两者都返回 0null和空的细绳''.
if None in (s1, s2):仅返回 0null

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark：如何处理 python 用户定义函数中的空值的相关文章

火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

使用 Sparklyr 将字符串/字符转换为日期

我已经将一张表带入 Hue 其中有一列日期我正在尝试在 Rstudio 中使用 Sparklyr 来玩它我想将字符列转换为日期列如下所示 Weather data mutate Weather data date2 as Date d
Discord.js 提及

client on message message gt if message content L hug if message mentions users size return message reply you need to ta
在Xcode中使用GPX模拟位置变化时，有没有办法控制速度？

我在 Xcode 4 2 中使用以下 GPX 文件来模拟位置更改效果很好但我无法控制位置变化的速度邮票似乎不起作用有人有解决方案吗
列出参加 MS Teams 会议的人员以及参加时间

我想列出谁参加了 MS Teams 会议以及他们参加了多长时间以便他们能够因参加培训课程而获得积分我查看了 Graph API v1 和 beta 版本会议有一个名为meetingParticipantInfo 但我没有看到任何内容可
如何将图像保存到Android中的Camera文件夹中？

我正在尝试将照片保存到我的应用程序拍摄的相机文件夹中这就是我正在尝试的 private File createImageFile throws IOException Create an image file name String ti
从 DART 中的 List> 获取特定键的数组

我有一个包含以下值的列表 List
当路径包含 url 片段时，如何在 Web 浏览器中打开本地 html 文件

我正在尝试通过以下方法打开网络浏览器然而当浏览器打开 url 文件路径时片段片段被破坏从 anchorName 到 23anchorName 这似乎没有得到处理所以基本上文件打开但不会跳转到文档中的适当位置有谁知道如何打开文件
nginx、fastcgi 和开放套接字

我正在尝试在 nginx 上使用 fastcgi 但遇到了一些问题 Nginx 不会重用连接它在 BeginRequest 标志中给出 0 因此应用程序应该在请求完成后关闭连接我有以下关闭代码 socket shutdown Socke
Composer/PSR - 如何自动加载函数？

如何自动加载辅助函数在任何类之外我可以指定在composer json某种应该首先加载的引导文件 You can 自动加载特定文件 https getcomposer org doc 04 schema md files通过编辑你的co
CDI 适用于常规 Java 应用程序吗？

我有一个简单的 Maven 项目包含三个类在我的META INF我有我的空beans xml 每次我运行我的Main java我得到一个NullPointerException Exception in thread main java
MinGW：与 LAPACK 和 BLAS 链接会导致 C++ 异常无法处理

情况很简单但却很奇怪当我在没有 LinearAlgebra o 源代码需要链接到 LAPACK 的情况下编译程序时会捕获并处理 C 异常当我不包含该编译单元但仍然链接到库时 llapack lblas 捕获并处理异常但是一旦我把
如何调试 COM C++ 进程外服务器？（客户端：Excel vba）

我不知道如何使用 Visual Studio 2015 调试 COM ATL C 进程外 exe 服务器对于 COM ATL DLL 来说没有问题当我调用 COM dll 时断点会自动触发然而当我尝试调试 EXE 服务器时调试器并
Angular - 如何应用 [ngStyle] 条件

我有一个 div 我想根据条件设置样式如果 styleOne 为 true 我想要红色的背景色如果 StyleTwo 为 true 我希望背景颜色为蓝色我已经用下面的代码完成了一半的工作 div 是否可以添加一个条件说如果 styl
tomcat中的关闭挂钩（必要）未运行

我有一个长时间运行的 cpu 和数据库密集型线程以低优先级运行可以根据管理员请求由我的 tomcat 应用程序触发我为此线程使用了关闭钩子这样如果应用程序被强制停止它可以在退出之前清理数据库状态在独立模式下完美工作使用 con
如何在终端中绘制图表

我正在研究 ML Theano 最近遇到了这个脚本 https gist github com notmatthancock 68d52af2e8cde7fbff1c9225b2790a7f https gist github com no
从“Docker快速启动终端”启动docker时如何添加`--registry-mirror`？

来自 docker 分发文档 https github com docker distribution https github com docker distribution 它说要配置 docker 使用镜像我们应该 Configur
Sprite Kit 的关卡编辑器？

您知道与 iOS 版 Sprite Kit 兼容的关卡编辑器吗我需要一个类似的软件Cocos 构建器 http cocosbuilder com这很好但据我所知它与 Sprite Kit 不兼容谢谢这是一个清单截至 2015 年
为什么派生的clone()方法返回一个引用？ [复制]

这个问题在这里已经有答案了推导Clone包含对泛型类型对象的引用的结构的特征除非它有Clone边界在这种情况下克隆工作将按预期生成clone 方法返回对象的引用但不返回新对象我有代码 derive Clone struct A
解析具有多个命名空间的 XML

所以我想解析这个 XML
Pyspark：如何处理 python 用户定义函数中的空值

我想使用一些非 pyspark 原生的字符串相似性函数例如数据帧上的 jaro 和 jaro winkler 度量这些在 python 模块中很容易获得例如jellyfish 对于没有的情况我可以写 pyspark udf 很好nu

Pyspark：如何处理 python 用户定义函数中的空值

Pyspark：如何处理 python 用户定义函数中的空值 的相关文章

随机推荐

热门标签

Pyspark：如何处理 python 用户定义函数中的空值的相关文章