将自定义函数应用于 PySpark 中数据框的选定列的单元格

2024-03-01

假设我有一个如下所示的数据框:

+---+-----------+-----------+
| id|   address1|   address2|
+---+-----------+-----------+
|  1|address 1.1|address 1.2|
|  2|address 2.1|address 2.2|
+---+-----------+-----------+

我想将自定义函数直接应用于address1 and address2列,例如:

def example(string1, string2):
    name_1 = string1.lower().split(' ')
    name_2 = string2.lower().split(' ')
    intersection_count = len(set(name_1) & set(name_2))

    return intersection_count

我想将结果存储在一个新列中,以便我的最终数据框如下所示:

+---+-----------+-----------+------+
| id|   address1|   address2|result|
+---+-----------+-----------+------+
|  1|address 1.1|address 1.2|     2|
|  2|address 2.1|address 2.2|     7|
+---+-----------+-----------+------+

我尝试以曾经将内置函数应用于整个列的方式执行它,但出现错误:

>>> df.withColumn('result', example(df.address1, df.address2))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<stdin>", line 2, in example
TypeError: 'Column' object is not callable

我做错了什么以及如何将自定义函数应用于选定列中的字符串?


你必须在spark中使用udf(用户定义函数)

from pyspark.sql.functions import udf
example_udf = udf(example, LongType())
df.withColumn('result', example_udf(df.address1, df.address2))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将自定义函数应用于 PySpark 中数据框的选定列的单元格 的相关文章

随机推荐

  • 在框架内打开 https 页面是否存在问题

    我以编程方式创建一个 html 报告 分为两个框架 如果用户随后单击右侧框架上的超链接 则该框架将被页面内容替换 这工作正常 但现在当我尝试链接到任何 Discogs 发布页面时 例如this one https www discogs c
  • 帮助解决密码复杂性正则表达式

    我使用以下正则表达式来验证密码复杂性 6 12 0 9 2 A Z 2 a z 2 简而言之 2个小写字母 2个大写字母 2个数字 最小长度为6 最大长度为12 当我使用最小长度时 除了最大长度之外 它工作得很好 例如 6 0 9 2 A
  • oracle sql 日期不晚于今天

    我需要显示一些数据 如果它是 新数据 更新数据 比方说 我将从发布日期列和更新列中获取这些数据 其中发布日期和更新日期都是时间戳 那么如果是新的日期如何计算呢 过去 24 小时 Where publish date gt sysdate 1
  • Python 中的 Yaml 合并

    所以我正在考虑用 Python 为 Pygame 制作一个小样板库 当然还有任何愿意使用它的人 我想要一个通过 yaml 文件提供应用程序设置的系统 因此 我认为如果库提供默认的 yaml 树并将其与用户提供的树合并 将会很有用 为了可用性
  • 如何同时运行 Windows Phone 7 模拟器的多个实例?

    我正在为 Windows Phone 7 创建多人游戏 如何运行模拟器的多个实例来调试它 您确实可以同时运行 Windows Phone 7 模拟器的多个实例 甚至可以同时调试它们 如我在我的文章中所示博客文章 http blog func
  • shell脚本中的cd命令是否加载目标目录中的rvmrc?

    当你有类似 在projectx内部给出一个 rvmrc文件 指定ruby 1 9 2并且我的系统上有两个ruby ree 1 8 7和ruby1 9 2 bin bash cd applications projectx which rub
  • flex-flow:列换行,在弹性框中导致父容器溢出

    我有这样的场景 https jsfiddle net b6zcdgf7 https jsfiddle net b6zcdgf7 container display flex height 3em border solid thin blue
  • H2数据库用户定义的java函数类未找到

    当我创建一个 ALIAS 来在 H2 数据库中注册 java 函数时 它给出了未找到类的错误 我正在 TCP 连接上运行 h2 数据库 sample public class TimeFrame public static void mai
  • 如何从 Java 将焦点集中到 shell 打开文件的默认程序?

    在 Java 中 我使用默认文件处理程序 MS Excel 在本例中 打开一个 Excel 文件 使用中描述的方法这个计算器问题 https stackoverflow com questions 2114318 opening an ex
  • 在 C# 中,如何捕获 Web 服务调用中使用的 SOAP?

    我有一个 C 应用程序 它是 Web 服务的客户端 我的要求之一是允许捕获我发送的 SOAP 这样如果出现问题 我可以修复错误 或者证明问题出在我正在调用的服务中 我的 WebReference 代理服务类派生自System Web Ser
  • NodeJS - MongoDB 触发器

    我正在尝试使用 DerbyJS Racer 和 MongoDB 开发日志查看器 日志将由不同的源连续插入到 MongoDB 数据库中 我的日志查看器应该能够自动更新用户界面上的日志表 我想知道是否有一种本地方式来监听 MongoDB 事件
  • libgdx 中的抗锯齿填充形状

    我一直在到处寻找一种方法来消除用绘制的填充形状的边缘锯齿ShapeRenderer ie ShapeType Filled 但找不到任何关于此的信息 线条效果很好Gdx gl glEnable GL10 GL LINE SMOOTH 但我尝
  • Python 的 pbkdf2_sha256.verify 的 NodeJS 实现

    我必须将此 Python 代码翻译为 NodeJS from passlib hash import pbkdf2 sha256 pbkdf2 sha256 verify 12345678 pbkdf2 sha256 2000 8R7jHO
  • Code::blocks 中的调试器命令行参数

    在 Code blocks 中调试程序时 如何指定要发送到正在调试的程序的命令行参数 我一生都找不到在哪里设置它 谷歌搜索会显示用于调试编译器本身的设置 而不是编译器中编写的程序 如果把它排除在外 那就太奇怪了 Thanks Tim 啊 正
  • VSCode Prettier 以奇怪的方式格式化 HTML(下一行大于符号)

    从今天起 安装了 Prettier Extension 的 VSCode 以一种非常奇怪的方式格式化我的 HTML 例如
  • LINQ to XML 提取嵌套元素

    我对 LINQ 和 XML 解析很陌生 对 C 编程也很陌生 对于以下 XML 结构 我尝试提取嵌套元素
  • 如何在 Windows 7 中使用 Cygwin 安装 git-subtree?

    我正在努力使用 Cygwin 安装 git subtree 并且网上没有任何专注于从 Windows 源代码构建的好的教程 您是否遇到过这个问题 解决这个问题的最佳策略是什么 git subtree不是包的一部分 然而 就像gitk你可以手
  • Oracle To_Char函数如果已经是字符串如何处理

    场景 我正在调用一个函数 该函数返回用户输入的字段 该字段通常返回一个类似 120000 的数字 然后我使用 to char 将其转换为 120 000 问题 某些用户输入 120 000 等值 这在尝试使用 to char 时出现错误 如
  • 使用 Kotlin 协程进行多线程

    我正在尝试Kotlin 协程 https kotlinlang org docs reference coroutines html并有以下代码 fun main args Array
  • 将自定义函数应用于 PySpark 中数据框的选定列的单元格

    假设我有一个如下所示的数据框 id address1 address2 1 address 1 1 address 1 2 2 address 2 1 address 2 2 我想将自定义函数直接应用于address1 and addres