转换列并更新 DataFrame

2023-12-08

所以，我下面要做的是删除一列A from a DataFrame因为我想应用一个转换（这里我只是json.loadsJSON 字符串）并将旧列替换为转换后的列。转换后，我只需连接两个结果数据框。

df = df_data.drop('A').join(
    df_data[['ID', 'A']].rdd\
        .map(lambda x: (x.ID, json.loads(x.A)) 
             if x.A is not None else (x.ID, None))\
        .toDF()\
        .withColumnRenamed('_1', 'ID')\
        .withColumnRenamed('_2', 'A'),
    ['ID']
)

我不喜欢的当然是我所面临的开销，因为我必须做withColumnRenamed运营。

对于 pandas All 我会做这样的事情：

pdf = pd.DataFrame([json.dumps([0]*np.random.randint(5,10)) for i in range(10)], columns=['A'])
pdf.A = pdf.A.map(lambda x: json.loads(x))
pdf

但以下内容在 pyspark 中不起作用：

df.A = df[['A']].rdd.map(lambda x: json.loads(x.A))

那么有没有比我在第一个代码片段中所做的更简单的方法呢？

I do not think you need to drop the column and do the join. The following code should^* be equivalent to what you posted:

cols = df_data.columns
df = df_data.rdd\
    .map(
        lambda row: tuple(
            [row[c] if c != 'A' else (json.loads(row[c]) if row[c] is not None else None) 
             for c in cols]
        )
    )\
    .toDF(cols)

^*I haven't actually tested this code, but I think this should work.

但要回答您的一般问题，您可以使用以下方法就地转换列withColumn().

df = df_data.withColumn("A", my_transformation_function("A").alias("A"))

Where my_transformation_function()可以是一个udf or a pyspark sql function.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

apachesparksql

转换列并更新 DataFrame 的相关文章

PySpark 用数组替换 Null

通过 ID 连接后我的数据框如下所示 ID Features Vector 1 50 Array 1 1 2 3 2 50 Null 我最终得到向量列中某些 ID 的空值我想用 300 维的零数组替换这些 Null 值与非空向量条
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值

随机推荐

FRestore文档onUpdate：仅针对特定字段触发

在我的云功能中我有下一个功能 export const collectionOnUpdate functions firestore document cards id onUpdate async change context gt a
Node.js + Socket.io |在服务器上设置自定义标头

我使用 Helmet 和 Express 从服务器端设置相当多的安全 HTTP 标头当在 Node js 应用程序顶部渲染客户端页面时使用以下命令这做得很好 var app express app use helmet res ren
在另一个 IQueryable 中使用 IQueryable

我有一个扩展方法它返回一个 IQueryable 来获取公司产品我只想在 IQueryable 中使用它作为子查询 public static class DBEntitiesCompanyExtensions public stati
通过 JSF 将 PDF 发送到浏览器

我正在尝试将 JasperReports 生成的 PDF 文件发送到用户的浏览器我找不到托管 bean 方法中的问题以下是一个片段 System out println Making pdf FacesContext fc FacesC
Windows Phone 8 上的 HttpWebRequest 同步

为了设计重用可用于 WPF 应用程序 Windows Phone 8 应用程序和更高版本的 Windows 8 RT 应用程序的库我们需要进行一些 HttpWebRequest 调用最好是同步调用以免破坏现有应用程序问题是已经存在
使用 AJAX 和 JQuery 通过 PHP 进行简单验证

我是新来的AJAX 我想学习如何验证表单假设我有一个带有两个输入字段的表单当我点击提交时我想用 php 脚本检查页面验证成功后我想重定向到action submitForm php 当一个或多个字段根据validation php我
OpenVINO：如何使用推理引擎构建 OpenCV 以支持从模型优化器加载模型

我安装了 OpenVINO 并想在 Windows 10 上运行以下代码 import numpy as np import cv2 import sys from get face id import face id getter fro
如何在 Oracle 11gr2 中安装 Procedural Option

我一直在尝试在计算机上本地安装的 Oracle 11gR2 上创建 PL SQL 包并运行过程但一直收到 ORA 00900 错误基于此article 看来Procedural Option还没有安装这是我登录时 sqlplus 的输
事件驱动编程如何帮助仅执行 IO 的 Web 服务器？

我正在考虑为我们的新后端项目使用一些框架编程方法它涉及 BackendForFrontend 实现聚合下游服务为简单起见以下是它所经历的步骤请求进入网络服务器 Web服务器发出下游请求下游请求返回结果 Web服务器返回请求事
CodeIgniter 2.0 - 验证数组

我在将一段表单验证代码转换为 CI 2 0 时遇到一些问题我正在尝试验证一组复选框但由于某种原因验证无法运行回调或不验证如何验证一组复选框以便至少选中一个并且值必须是选项之一选项数组的键 EDIT 这是对我失败的地方的更好解释可
使用 na.approx 在数据框中插入 NA 值

我正在尝试删除NA通过插值从我的数据框中获取na approx 但无法删除所有NAs 我的数据帧是 4096x4096 其中 270 15 作为无效值的标志我需要在所有点上连续的数据来提供气象模型昨天我询问并获得了关于如何基于另一个数据
循环创建PyQt5按钮：所有按钮触发相同的回调

我应该提到我已经阅读了这些内容但我仍然无法实现我的目标在 for 循环中使用字典来创建按钮不起作用循环中的 QtCore QObject connect 仅影响最后一个实例我的目标是制作一个 Linux 启动器应用程序按钮的创
session_start() 错误

我无法处理这个错误请帮助我它可以在我的笔记本电脑上运行但不能在我的台式机上运行 Why Warning session start function session start Cannot send session cache li
如何让代码在Response.end之后执行

我的代码是这样的 HttpContext Current Response Clear HttpContext Current Response ContentType application pdf HttpContext Current
使用 LocationClient 获取位置更新

我该如何使用locationclient类与requestLocationUpdates LocationRequest LocationListener 在android中获取位置更新我已经尝试过以下代码但它不起作用谁能帮我这个哪
在Sql Server中编写TRANSFORM语句

我正在将 Web 应用程序后端从 Access 迁移到 MSSQL 但是我无法在 MSSQL 中重现以下查询有什么想法吗 TRANSFORM First FollowUp FUData AS FirstOfFUData SELECT Fo
使用 WCF 服务返回 List

我得到了一个Employee班级和每个员工都有一份请假清单可以给个清单吗AppliedLeave as a DataMember in WCF DataContract public class Employee DataMember p
Typescript：无法在模块外部使用 import 语句

我在 Node js 2019 年 10 月 7 日最新版本的 Node js 应用程序中有一个 ts 文件可以导入节点模块而无需默认导出我使用这个结构 import Class from abc 当我运行代码时出现以下错误 Cann
访问 nullptr 怎么可能有效？ [复制]

这个问题在这里已经有答案了我有一个简单的课程 class B public int getData return 3 然后我用 nullptr 初始化指向它的指针 B foo nullptr 然后尝试使用它会带来惊喜 int t fo
转换列并更新 DataFrame

所以我下面要做的是删除一列A from a DataFrame因为我想应用一个转换这里我只是json loadsJSON 字符串并将旧列替换为转换后的列转换后我只需连接两个结果数据框 df df data drop A join

转换列并更新 DataFrame

转换列并更新 DataFrame 的相关文章

随机推荐

热门标签