将自定义函数应用于 PySpark 中数据框的选定列的单元格

2024-03-01

假设我有一个如下所示的数据框：

+---+-----------+-----------+
| id|   address1|   address2|
+---+-----------+-----------+
|  1|address 1.1|address 1.2|
|  2|address 2.1|address 2.2|
+---+-----------+-----------+

我想将自定义函数直接应用于address1 and address2列，例如：

def example(string1, string2):
    name_1 = string1.lower().split(' ')
    name_2 = string2.lower().split(' ')
    intersection_count = len(set(name_1) & set(name_2))

    return intersection_count

我想将结果存储在一个新列中，以便我的最终数据框如下所示：

+---+-----------+-----------+------+
| id|   address1|   address2|result|
+---+-----------+-----------+------+
|  1|address 1.1|address 1.2|     2|
|  2|address 2.1|address 2.2|     7|
+---+-----------+-----------+------+

我尝试以曾经将内置函数应用于整个列的方式执行它，但出现错误：

>>> df.withColumn('result', example(df.address1, df.address2))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "<stdin>", line 2, in example
TypeError: 'Column' object is not callable

我做错了什么以及如何将自定义函数应用于选定列中的字符串？

你必须在spark中使用udf（用户定义函数）

from pyspark.sql.functions import udf
example_udf = udf(example, LongType())
df.withColumn('result', example_udf(df.address1, df.address2))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

将自定义函数应用于 PySpark 中数据框的选定列的单元格的相关文章

如何跳过财务图中的空日期（周末）

ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好但如何删除 x 轴上
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
Python pandas：删除字符串中分隔符之后的所有内容

我有数据框其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容包括两个以便我最终得到 vendor a vendor b vendor a 我尝
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
直接打开Spyder还是通过Pythonxy打开？

之前我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它这两种方法有什么区别吗如果不是的话有什么意义Python x y
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
单击 selenium 中的链接时循环遍历表格的行（python）

示例页面源代码如下所示 div class div1 table class foot market tbody td class today name td tbody tbody td class today name td tbody
Java 相当于 Python 的 urllib.urlencode（基于 HashMap 的 UrlEncode）

From https stackoverflow com questions 2018026 should i use urllib or urllib2 2018103 2018103 Java 中 Python 的 urllib url
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

在框架内打开 https 页面是否存在问题

我以编程方式创建一个 html 报告分为两个框架如果用户随后单击右侧框架上的超链接则该框架将被页面内容替换这工作正常但现在当我尝试链接到任何 Discogs 发布页面时例如this one https www discogs c
帮助解决密码复杂性正则表达式

我使用以下正则表达式来验证密码复杂性 6 12 0 9 2 A Z 2 a z 2 简而言之 2个小写字母 2个大写字母 2个数字最小长度为6 最大长度为12 当我使用最小长度时除了最大长度之外它工作得很好例如 6 0 9 2 A
oracle sql 日期不晚于今天

我需要显示一些数据如果它是新数据更新数据比方说我将从发布日期列和更新列中获取这些数据其中发布日期和更新日期都是时间戳那么如果是新的日期如何计算呢过去 24 小时 Where publish date gt sysdate 1
Python 中的 Yaml 合并

所以我正在考虑用 Python 为 Pygame 制作一个小样板库当然还有任何愿意使用它的人我想要一个通过 yaml 文件提供应用程序设置的系统因此我认为如果库提供默认的 yaml 树并将其与用户提供的树合并将会很有用为了可用性
如何同时运行 Windows Phone 7 模拟器的多个实例？

我正在为 Windows Phone 7 创建多人游戏如何运行模拟器的多个实例来调试它您确实可以同时运行 Windows Phone 7 模拟器的多个实例甚至可以同时调试它们如我在我的文章中所示博客文章 http blog func
shell脚本中的cd命令是否加载目标目录中的rvmrc？

当你有类似在projectx内部给出一个 rvmrc文件指定ruby 1 9 2并且我的系统上有两个ruby ree 1 8 7和ruby1 9 2 bin bash cd applications projectx which rub
flex-flow：列换行，在弹性框中导致父容器溢出

我有这样的场景 https jsfiddle net b6zcdgf7 https jsfiddle net b6zcdgf7 container display flex height 3em border solid thin blue
H2数据库用户定义的java函数类未找到

当我创建一个 ALIAS 来在 H2 数据库中注册 java 函数时它给出了未找到类的错误我正在 TCP 连接上运行 h2 数据库 sample public class TimeFrame public static void mai
如何从 Java 将焦点集中到 shell 打开文件的默认程序？

在 Java 中我使用默认文件处理程序 MS Excel 在本例中打开一个 Excel 文件使用中描述的方法这个计算器问题 https stackoverflow com questions 2114318 opening an ex
在 C# 中，如何捕获 Web 服务调用中使用的 SOAP？

我有一个 C 应用程序它是 Web 服务的客户端我的要求之一是允许捕获我发送的 SOAP 这样如果出现问题我可以修复错误或者证明问题出在我正在调用的服务中我的 WebReference 代理服务类派生自System Web Ser
NodeJS - MongoDB 触发器

我正在尝试使用 DerbyJS Racer 和 MongoDB 开发日志查看器日志将由不同的源连续插入到 MongoDB 数据库中我的日志查看器应该能够自动更新用户界面上的日志表我想知道是否有一种本地方式来监听 MongoDB 事件
libgdx 中的抗锯齿填充形状

我一直在到处寻找一种方法来消除用绘制的填充形状的边缘锯齿ShapeRenderer ie ShapeType Filled 但找不到任何关于此的信息线条效果很好Gdx gl glEnable GL10 GL LINE SMOOTH 但我尝
Python 的 pbkdf2_sha256.verify 的 NodeJS 实现

我必须将此 Python 代码翻译为 NodeJS from passlib hash import pbkdf2 sha256 pbkdf2 sha256 verify 12345678 pbkdf2 sha256 2000 8R7jHO
Code::blocks 中的调试器命令行参数

在 Code blocks 中调试程序时如何指定要发送到正在调试的程序的命令行参数我一生都找不到在哪里设置它谷歌搜索会显示用于调试编译器本身的设置而不是编译器中编写的程序如果把它排除在外那就太奇怪了 Thanks Tim 啊正
VSCode Prettier 以奇怪的方式格式化 HTML（下一行大于符号）

从今天起安装了 Prettier Extension 的 VSCode 以一种非常奇怪的方式格式化我的 HTML 例如
LINQ to XML 提取嵌套元素

我对 LINQ 和 XML 解析很陌生对 C 编程也很陌生对于以下 XML 结构我尝试提取嵌套元素
如何在 Windows 7 中使用 Cygwin 安装 git-subtree？

我正在努力使用 Cygwin 安装 git subtree 并且网上没有任何专注于从 Windows 源代码构建的好的教程您是否遇到过这个问题解决这个问题的最佳策略是什么 git subtree不是包的一部分然而就像gitk你可以手
Oracle To_Char函数如果已经是字符串如何处理

场景我正在调用一个函数该函数返回用户输入的字段该字段通常返回一个类似 120000 的数字然后我使用 to char 将其转换为 120 000 问题某些用户输入 120 000 等值这在尝试使用 to char 时出现错误如
使用 Kotlin 协程进行多线程

我正在尝试Kotlin 协程 https kotlinlang org docs reference coroutines html并有以下代码 fun main args Array
将自定义函数应用于 PySpark 中数据框的选定列的单元格

假设我有一个如下所示的数据框 id address1 address2 1 address 1 1 address 1 2 2 address 2 1 address 2 2 我想将自定义函数直接应用于address1 and addres

将自定义函数应用于 PySpark 中数据框的选定列的单元格

将自定义函数应用于 PySpark 中数据框的选定列的单元格 的相关文章

随机推荐

热门标签

将自定义函数应用于 PySpark 中数据框的选定列的单元格的相关文章