如何在 Pyspark 中使用 dataframe 中的函数 withColumn 函数？

2023-12-07

我定义了一些字典和一个函数：

dict_TEMPERATURE = {(0, 70): 'Low', (70.01, 73.99): 'Normal-Low',(74, 76): 'Normal', (76.01, 80): 'Normal-High', (80.01, 300): 'High'}
...
hierarchy_dict = {'TEMP': dict_TEMPERATURE, 'PRESS': dict_PRESSURE, 'SH_SP': dict_SHAFT_SPEED, 'POI': dict_POI, 'TRIG': dict_TRIGGER}



def function_definition(valor, atributo):

    dict_atributo = hierarchy_dict[atributo]
    valor_generalizado = None

    if isinstance(valor, (int, long, float, complex)):

        for key, value in dict_atributo.items():

            if(isinstance(key, tuple)):
                lista = list(key)

                if (valor > key[0] and valor < key[1]):
                    valor_generalizado = value

    else: # if it is not numeric
        valor_generalizado = dict_atributo.get(valor)


    return valor_generalizado

该函数的基本功能是：检查作为参数传递给“function_definition”函数的值，并根据其字典的引用替换其值。

因此，如果我调用“function_definition(60, 'TEMP')”，它将返回“LOW”。

另一方面，我有一个具有以下结构的数据框（这是一个示例）：

+----+-----+-----+---+----+
|TEMP|SH_SP|PRESS|POI|TRIG|
+----+-----+-----+---+----+
|   0|    1|    2|  0|   0|
|   0|    2|    3|  1|   1|
|   0|    3|    4|  2|   1|
|   0|    4|    5|  3|   1|
|   0|    5|    6|  4|   1|
|   0|    1|    2|  5|   1|
+----+-----+-----+---+----+

我想要做的是根据上面定义的函数替换数据帧的一列的值，所以我有下一个代码行：

dataframe_new = dataframe.withColumn(atribute_name, function_definition(dataframe[atribute_name], atribute_name))

但执行时我收到下一条错误消息：

AssertionError: col should be Column

我的代码有什么问题？怎么能这么做呢？

Your function_definition(价值,属性)返回单个字符串 (勇猛概括）对于单个valor.

断言错误：col 应该是 Column意味着您正在将参数传递给WithColumn(列名,列)那不是一个专栏。所以你必须转换你的数据，以便Column，例如，如下所示。

例如数据框（与您的结构相同）：

a = [(10.0,1.2),(73.0,4.0)] # like your dataframe, this is only an example

dataframe = spark.createDataFrame(a,["tp", "S"]) # tp and S are random names for these columns

dataframe.show()
+----+---+
|  tp|  S|
+----+---+
|10.0|1.2|
|73.0|4.0|
+----+---+

如你看到的here

udf创建表示用户定义函数 (UDF) 的列表达式。

解决方案：

from pyspark.sql.functions import udf

attr = 'TEMP'
udf_func = udf(lambda x: function_definition(x,attr),returnType=StringType())

dataframe_new = dataframe.withColumn("newCol",udf_func(dataframe.tp))
dataframe_new.show()

+----+---+----------+
|  tp|  S|    newCol|
+----+---+----------+
|10.0|1.2|       Low|
|73.0|4.0|Normal-Low|
+----+---+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

function

apachespark

DataFrame

replace

PySpark

如何在 Pyspark 中使用 dataframe 中的函数 withColumn 函数？的相关文章

从数据框中按索引删除行

我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引我正在尝试这样做 df train drop wrong indexes train 但是代码失败
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
替换字符串中的多个字符，而不使用任何嵌套替换函数

我的表中存储了一个方程我一次获取一个方程并希望将所有运算符替换为任何其他字符输入字符串 N 100 6858 6858 N 100 0 2 N 35 运算符或模式替换字符输出字符串 N 100 6858 6858 N 100 0
类型错误：“float”对象不可下标

PizzaChange float input What would you like the new price for all standard pizzas to be PriceList 0 1 2 3 4 5 6 PizzaCha
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
动态过滤 pandas 数据框

我正在尝试使用三列的阈值来过滤 pandas 数据框 import pandas as pd df pd DataFrame A 6 2 10 5 3 B 2 5 3 2 6 C 5 2 1 8 2 df df loc df A gt 0
如何将 r 数据框转换为 h2o 对象

我对 R 和 H2O 很陌生我试图找到一种将 r 数据帧转换为 h2o 对象的方法我花了一些时间研究如何做到这一点但没有运气其他方式也是可能的并且有详细记录如下 prosPath system file extdata prost
如何根据另一列的条件语句将因子列添加到数据框？

我有一个数据框我需要根据条件语句添加一个因子列这里是data https www dropbox com s hujiacus8ek5o5z MoroccoCGE CC Stats csv Code morstats agri f lt
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
确定列的累积最大值

我正在尝试以下代码 df pd DataFrame 23 52 36 49 52 61 75 82 97 12 columns A B df C np where df A gt df C shift df A df C shift pri
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
Python删除带有时间条件的行

我有 2 组 Dataframe 均具有唯一标识符和格式相同的日期时间数据 2020 01 01 00 00 01 日期时间和 12345 唯一标识符和类型第一个问题 DF1 DatetimeX ID Type 2020 01 01 02
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
只保留 A-Z 0-9 并使用 javascript 从字符串中删除其他字符

我正在尝试验证字符串以使它们成为有效的网址我只需要保留 A Z 0 9 并使用以下命令从字符串中删除其他字符javascript or jquery 例如贝儿餐厅我需要将其转换为百丽餐厅所以字符被删除只保留 A Z a z 0
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的

随机推荐

从字符串中获取价格值

我有一个字符串其中价格值 544 50 可以位于字符串中的任何位置例如 HP G60 630US 笔记本电脑笔记本电脑 RadioShack com gt 259 97 radioshack com 我需要从字符串中获取值 259 9
类型错误：“dict_keys”对象不支持索引

def shuffle self x random None int int x random random random gt shuffle list x in place return None Optional arg random
使用 PHPMailer 和 GMAIL SMTP 发送电子邮件

我已经阅读了网络上的每个示例但似乎仍然无法连接到 GMAIL SMTP 这是我正在运行的代码 include phpMailer class phpmailer php path to the PHPMailer class mail n
多个枚举的国际化（枚举值的翻译）[重复]

这个问题在这里已经有答案了再次讨论过的事情before我想分享我的解决方案并寻求增强功能其他方法或最佳实践我有几个需要国际化的枚举我需要将枚举值翻译成某些语言以便在 jsf 页面中显示它们示例枚举 public enum Tr
java.io.IOException：收到的身份验证质询为空

我需要获取响应代码但它抛出 IOException 我不知道怎么了 try url new URL urlBuilder toString conn HttpURLConnection url openConnection conn se
如何将 UCS2 字符串转换为 UTF8？

如何将 UCS2 每个字符 2 个字节的字符串转换为 Ruby 中的 UTF8 字符串你应该调查一下iconv 它是 Ruby 标准库的一部分它是为这项任务而设计的具体来说 Iconv iconv utf 8 utf 16 str
如何在子窗口出现时通过单击父窗口上的按钮来禁用父窗口

我在jsp中设计了一个窗口其中有一个搜索按钮当用户单击搜索按钮时会出现新窗口但此时我希望我的父窗口被禁用这样当用户尝试在父窗口上执行任何操作时在搜索表单关闭之前它不应该允许如果有人知道如何执行此操作请告诉我我已经
MySQL 插入后和更新后触发

我有两张表其中一张名为att如下 CREATE TABLE att SID varchar 50 NOT NULL CID varchar 50 NOT NULL Date date NOT NULL H1 varchar 1 NOT N
如何获取和修改 Android 上支持的音频文件的元数据？

背景安卓支持各种音频文件编码和解码我使用将音频录制到音频文件中android media MediaRecorder类但我也希望显示有关我记录的文件的信息不是标准数据但仍然只是文本甚至可能由用户配置并且我认为最好将此信息存储在
C++，为什么结构/类中不需要前向声明

在 C 中为什么可以编译以下内容 struct test void foo this gt bar int bar 但不是以下内容 void foo bar int bar 需要明确的是我确实明白在第二种情况下foo缺乏前瞻性声明bar
字符串中 JSON 控制字符的转义

在用 Java 编写 JSON 解析器时我遇到了一个外观问题在 JSON 规范中明确指出 Javascript 控制字符与例如相同在 C 和 Java 中如 n 或 t 我遇到的问题是当 JSON 字符串中存在控制代码时因
如何打开通过 Intent.ACTION_VIEW 从 ACTION_CREATE_DOCUMENT 获取的文件 Uri

我的应用程序请求android net Uri来自用户通过Intent ACTION CREATE DOCUMENT这边走 Intent intent new Intent Intent ACTION CREATE DOCUMENT int
Jsoup图像标签提取

我需要使用 jsoup 从此 html 中提取图像标签 div class picture img src http asdasd aacb jpgs title picture alt picture div 我需要提取这个 img 标签
连接池已满，通过Selenium和Python丢弃与ThreadPoolExecutor和多个无头浏览器的连接

我正在使用编写一些自动化软件selenium 3 141 0 python 3 6 7 chromedriver 2 44 大多数逻辑可以由单个浏览器实例执行但对于某些部分我必须启动 10 20 个实例才能获得不错的执行速度一旦涉及到
如何将表单序列化为对象（具有树结构）？

我有一个表格
列出 JVM 信任存储中的证书

我通过系统属性定义了一个自定义信任库 System setProperty javax net ssl trustStore System setProperty javax net ssl trustStorePassword 鉴于虚拟机
访问 JSON feed 中的嵌套对象 - Sencha Touch

我将从通常的免责声明开始 Sencha Touch 新手使用 JSON 在黑暗中挣扎任何朝着正确方向提供的帮助或推动都会比您想象的更加感激我正在尝试让我的应用程序从公共 Google 电子表格 JSON 提要中获取数据据我了解我当
.NET Core 在另一个单例服务中注入单例服务

我在用StackExchange Redis从 NET Core 连接到 Redis 服务器如何注入单例IConnectionMultiplexer到另一个单例服务启动 cs public void ConfigureServices
如何在 iPhone 中使用 Base64 解码数据

你好我的朋友在java中使用Base64编码标准我正在使用 iPhone 如何解码数据反之亦然 java中有org apache commons codec binary Base64 decodeBase64 谢谢迪帕克触摸码有
如何在 Pyspark 中使用 dataframe 中的函数 withColumn 函数？

我定义了一些字典和一个函数 dict TEMPERATURE 0 70 Low 70 01 73 99 Normal Low 74 76 Normal 76 01 80 Normal High 80 01 300 High hierarch

如何在 Pyspark 中使用 dataframe 中的函数 withColumn 函数？

如何在 Pyspark 中使用 dataframe 中的函数 withColumn 函数？ 的相关文章

随机推荐

热门标签

如何在 Pyspark 中使用 dataframe 中的函数 withColumn 函数？的相关文章