withColumn() 中的 PySpark list() 只能工作一次，然后 AssertionError: col 应该是 Column

2024-04-08

我有一个 DataFrame，其中有 6 个字符串列，名为“Spclty1”...“Spclty6”，另外 6 个字符串列名为“StartDt1”...“StartDt6”。我想将它们压缩并折叠成如下所示的列：[[Spclty1, StartDt1]...[Spclty6, StartDt6]]

我首先尝试将“Spclty”列折叠到如下列表中：

DF = DF.withColumn('Spclty', list(DF.select('Spclty1', 'Spclty2', 'Spclty3', 'Spclty4', 'Spclty5', 'Spclty6')))

我第一次执行它时，它起作用了，给了我一个名为“Spclty”的新列，其中包含诸如['014', '124', '547', '000', '000', '000']，正如预期的那样。

然后，我在脚本中添加了一行，对一组不同的 6 个字符串列（名为“StartDt1”...“StartDt6”）执行相同的操作：

DF = DF.withColumn('StartDt', list(DF.select('StartDt1', 'StartDt2', 'StartDt3', 'StartDt4', 'StartDt5', 'StartDt6'))))

这造成了AssertionError: col should be Column.

在我没有办法尝试之后，我再次尝试了原来的操作（作为健全性检查）：

DF.withColumn('Spclty', list(DF.select('Spclty1', 'Spclty2', 'Spclty3', 'Spclty4', 'Spclty5', 'Spclty6'))).collect()

并得到如上所述的断言错误。

因此，最好理解为什么它只在第一次（仅）有效，但主要问题是：将列压缩到 Spark 中类似字典的元素集合的正确方法是什么？

.withColumn()需要一个列对象作为第二个参数，并且您正在提供一个列表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

withColumn() 中的 PySpark list() 只能工作一次，然后 AssertionError: col 应该是 Column 的相关文章

PySpark 将列除以其总和[重复]

这个问题在这里已经有答案了我试图将 PySpark 中的列除以它们各自的总和我的数据框此处仅使用一列如下所示 event rates 1 10 461016949152542 2 10 38953488372093 3 10 609
替换数据框中的重复列

我有一个data frame in pyspark 该数据框有一些带有特殊字符的列 cols df schema names cols abc test test abc eng test abc test reps def col ren
Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho
如何在 PySpark 中创建自定义估算器

我正在尝试构建一个简单的自定义Estimator在 PySpark MLlib 中我有here https stackoverflow com questions 32331848 create a custom transformer
在pyspark lambda映射函数中使用keras模型

我想使用该模型来预测 PySpark 中的映射 lambda 函数的分数 def inference user embed item embed feats user embed item embed dnn model load mode
从 Pyspark LDA 模型中提取文档主题矩阵

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型 from pyspark mllib clustering import LDA model LDA train corpus k 10 这工作得很好但我现在需
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
实现一个java UDF并从pyspark调用它

我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions
PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz
Jupyter Notebook 上未显示结构化流输出

我有两个笔记本第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台不幸的是我没有在 jupyter 控制台上得到
Spark 使用自定义架构读取镶木地板

我正在尝试使用自定义架构导入镶木地板格式的数据但它返回类型错误 option 缺少 1 个必需的位置参数值 ProductCustomSchema StructType StructField id sku IntegerType T
如何使用增量值向 Pyspark 中的 DataFrame 添加列？

我有一个名为 df 的 DataFrame 如下所示 Atr1 Atr2 Atr3 A A A B A A C A A 我想向其中添加一个具有增量值的新列并获取以下更新的 DataFrame Atr1 Atr2 Atr3
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d

随机推荐

如何获取给定表的索引列列表

给定一个 SQLite 数据库我需要获取给定表中哪些列被索引的列表以及排序顺序我需要从代码 C 尽管这不重要执行此操作所以我真正需要的是一条 SQL 语句如果存在它可以执行此操作我知道我可以这样做 SELECT sql FRO
如何将 SQL Server 时间戳列转换为日期时间格式

当 SQL Server 返回时间戳时 Nov 14 2011 03 12 12 947PM 是否有一些简单的方法可以将字符串转换为日期格式例如 Y m d H i s 到目前为止我使用 date Y m d H i s strtotim
Android TaskStackBuilder 丑陋的过渡

TaskStackBuilder 到底出了什么问题它在开始新活动时使用了这种丑陋的转换 TaskStackBuilder taskStackBuilder TaskStackBuilder create this addParentSta
如何在 ngx bootstrap datepicker 中更改消息“无效日期”而不位于节点模块中

我更改了日期选择器的语言但显示的消息仍然是英语我知道它在 ngx bootstrap chronos locale locale defaults ts 里面它带来了以下信息 export declare const defaultI
如何在 Heroku 上托管 cython Web 应用程序？

目前我正在使用 Cython 并试图弄清楚如何在 heroku 上托管 Cython Flask 应用程序例如假设我的项目如下所示在 cython 编译之后 cythonheroku requirements txt run py
在控制台应用程序下找不到 System.drawing 命名空间

我选择控制台应用程序作为我的 C 项目但似乎在 Windows Form 项目下工作的导入在这里似乎不起作用它说绘图命名空间不存在 using System Drawing using System Drawing Imaging 我的
Python正则表达式分割不带空字符串

我有以下表现出这种模式的文件名 000014 L 20111007T084734 20111008T023142 txt 000014 U 20111007T084734 20111008T023142 txt 我想提取第二个下划线之后的中
按子数组计数降序对多维数组进行排序并保留第一级键

我有一个数组例如 array DEF gt type gt 1 id gt 1212 name gt Jane Doe current gt 1 type gt 1 id gt 3123121 name gt Door current g
警报管理器：缓存清理器停止应用程序

我正在制作一个简单的闹钟应用程序我想在给定时间过去后显示一个活动这是我正在尝试的代码 public void onReceive Context c Intent i Log v XXXX S Toast makeText c S mi
角度材质多选

我正在寻求一些有关使用 Angular Material 7 多重选择的建议该文档对我想做的事情没有多大帮助关于我正在尝试做的事情的一些背景因此我们正在创建一个记录对象作为其中的一部分我们需要知道哪些计划资助了他们 Progra
iframe 内容未在 iOs5 iPad/iPhone 中的滚动下呈现

我正在开发 iPad html5 网页需要显示来自其他来源不同域的页面我正在将这些页面加载到iframe 然后滚动iframe使用iOs5新的滚动能力如下面的代码所示 div style height 1185px width 1
将 2 列与 pandas 中的列表值连接起来（避免重复和 NaN）

我的 pandas 数据框如下 loc 1 loc 2 mumbai gujarat sri lanka chennai UP Goa telangana Kashmir Goa Rajkot NaN Bihar Orissa 我想创建一个
将 Liquibase 扩展与 Maven 结合使用

我正在尝试使用Liquibase Oracle 扩展 http liquibase jira com wiki display CONTRIB Oracle Extensions from maven liquibase 插件 http w
我也可以在客户端使用 Coffeescript 吗？

有没有办法在客户端使用CoffeeScript 有两种方法将 CoffeeScript 编译为 JavaScript 并像部署任何 JavaScript 文件一样部署它或者 Use coffee script js https coff
Xamarin WKWebView 接受自签名证书

我在网上看到过各种例子说明如何接受它们但我总是得到发生 SSL 错误无法与服务器建立安全连接我要注意的是该方法肯定被调用在 iOS 8 4 模拟器和 iOS 11 实际设备上运行因此未调用的方法不是这里的问题到目前为止我已经尝
主要 JavaScript 框架/库列表 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我开始更深入地研究 JavaScript 开发并希望减少时间去探索必须使用哪些工具来完成这项工作我正在寻找一些网站其中所有主要的 J
用于生成唯一链接的 Rails 插件？

我的应用程序中有很多地方需要生成带有唯一标记的链接 foo com g6Ce7sDygw 或其他每个链接可能与一些会话数据相关联并将用户带到一些特定的控制器操作有谁知道有一个 gem 插件可以做到这一点它很容易实现但会更干净无
无法通过 cloudformation yaml 创建 AWS::ECS::Service，模型验证失败

在创建期间AWS ECS Service通过 cloudformation 我收到错误 Model validation failed 该错误与以下内容有关 HealthCheckGracePeriodSeconds和一些其他属性错误详细
generateCertificate() 时出现证书异常

我正在开发我的 Android 应用程序我正在尝试生成X509证书来自我的证书文件流的实例但是得到CertificateException 这是我的简单代码 import java security cert CertificateEx
withColumn() 中的 PySpark list() 只能工作一次，然后 AssertionError: col 应该是 Column

我有一个 DataFrame 其中有 6 个字符串列名为 Spclty1 Spclty6 另外 6 个字符串列名为 StartDt1 StartDt6 我想将它们压缩并折叠成如下所示的列 Spclty1 StartDt1 Spclty6

withColumn() 中的 PySpark list() 只能工作一次，然后 AssertionError: col 应该是 Column

withColumn() 中的 PySpark list() 只能工作一次，然后 AssertionError: col 应该是 Column 的相关文章

随机推荐

热门标签