PySpark：添加一个新列，其中包含从列创建的元组

2024-03-28

这里我创建了一个数据框，如下所示，

df = spark.createDataFrame([('a',5,'R','X'),('b',7,'G','S'),('c',8,'G','S')], 
                       ["Id","V1","V2","V3"])

看起来像

+---+---+---+---+
| Id| V1| V2| V3|
+---+---+---+---+
|  a|  5|  R|  X|
|  b|  7|  G|  S|
|  c|  8|  G|  S|
+---+---+---+---+

我想要添加一列，该列是由 V1、V2、V3 组成的元组。

结果应该看起来像

+---+---+---+---+-------+
| Id| V1| V2| V3|V_tuple|
+---+---+---+---+-------+
|  a|  5|  R|  X|(5,R,X)|
|  b|  7|  G|  S|(7,G,S)|
|  c|  8|  G|  S|(8,G,S)|
+---+---+---+---+-------+

我尝试使用与 Python 中类似的语法，但它不起作用：

df.withColumn("V_tuple",list(zip(df.V1,df.V2,df.V3)))

类型错误：zip 参数 #1 必须支持迭代。

任何帮助，将不胜感激！

我来自 scala 但我确实相信 python 中有类似的方法：

Using sql.functions http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24封装方法：

如果你想获得一个StructType对于这三列，使用struct(cols: Column*): Column像这样的方法：

from pyspark.sql.functions import struct
df.withColumn("V_tuple",struct(df.V1,df.V2,df.V3))

但如果你想将它作为字符串获取，你可以使用concat(exprs: Column*): Column像这样的方法：

from pyspark.sql.functions import concat
df.withColumn("V_tuple",concat(df.V1,df.V2,df.V3))

使用第二种方法，您可能必须将列转换为Strings

我不确定 python 语法，如果有语法错误，只需编辑答案。

希望这对您有帮助。此致

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

PySpark：添加一个新列，其中包含从列创建的元组的相关文章

防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
AES 会话密钥的 RSA 解密失败，并显示“AttributeError：‘bytes’对象没有属性‘n’”

我正在努力在 Python 3 6 上从 PyCryptodome 实现公钥加密当我尝试创建对称加密密钥并加密解密变量时一切正常但是当我引入 RSA 和 PKCS1 OAEP 的那一刻一切就都顺理成章了 session key加密
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
SQLAlchemy - 如何使用 SQLAlchemy 做出“django 选择”？

在 Django 中我们可以使用非常简单的选择例如 GENDER CHOICES M Male F Female class Foo models Model gender models CharField max length 1
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
使用 RGB 数据将输入数据剪切到 imshow 的有效范围（对于浮点数为 [0..1]，对于整数为 [0..255]）

我尝试将 MRI 切片转换为 PNG 格式后运行图形切割算法我不断遇到以下问题 Clipping input data to the valid range for imshow with RGB data 0 1 for floats
python 没有名为serial的模块

我的 python 程序有问题我编写了程序来将数据温度从 arduino 获取到我的树莓派 sqlite 数据库但它在第 4 行导入串行处给了我一个错误提示 ImportError 没有名为串行的模块我使用 python3
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
Pandas：将 DataFrame 列值转换为新的 Dataframe 索引和列

我有一个如下所示的数据框 a b c 0 1 10 1 2 10 2 2 20 3 3 30 4 1 40 4 3 10 上面的数据帧作为默认索引 0 1 2 3 4 我想将其转换为如下所示的数据框 1 2 3 0 10 0 0 1 0 1
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
如何获取DataFrame.pct_change来计算每日价格数据的每月变化？

我知道可以用periods争论但是如何将分布在一个月内例如交易日的每日价格数据进行回报化呢示例数据是 In 1 df AAPL 2009 01 02 16 00 00 90 36 2009 01 05 16 00 00 94 18
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879
Django：单击按钮加载另一个模板

我已经在 django 项目上工作了几个星期只是玩玩以便掌握它的窍门我有点困惑我现在有一个名为 home html 的模板我想知道是否可以将另一个名为 profile html 的模板设置为 home html 模板上的链接我有一

随机推荐

查找堆中元素的位置

考虑以下元素列表 h 38 203 1 45 39 10 34 90 10 2 100 1 如果将其放入基于数组的堆中它将按以下方式查找 import heapq heapq heapify h now we have a heap th
如何使用 Javascript 在离开页面之前调用函数

我想在离开页面之前执行一个函数而不显示确认弹出窗口JavaScript仅有的我已尝试使用下面的代码但它不起作用或与onbeforeunload但它总是显示弹出窗口 var result test if window onbeforeu
混合 C++11 std::thread 和 C 系统线程（即 pthreads）

我正在编写一个多线程 C 程序并希望使用多线程 C 库该库希望我使用本机系统方法为其创建一些工作线程并使用如下代码将控制权传递给其 run 函数 void system specific thread init ifdef WIN32
cpprestsdk：架构 x86_64 的未定义符号

我已经访问了所有其他问题但据我所知没有一个问题是我的问题在 MacBook Pro 16GB 内存 Intel Core I7 上运行 OS X El Capitan 10 11 6 我也运行过brew doctor 但没有发现任何会
ui-bootstrap 分页在初始化时重置当前页面

我正在使用 ui bootstrap angular bootstrap 库中的分页指令我在初始化时遇到问题当我通过 url 导航到特定页面时会出现问题发生的情况是我的控制器使用 stateParams 中的正确页面进行初始化然
如何在跨度内的 CSS 中创建所有浏览器兼容的悬挂缩进样式

我唯一发现的是 hang text indent 3em margin left 3em 实现此目的的唯一方法是将文本放入段落中这会导致那些非常难看的额外行我宁愿把它们放在一个 span class hang span 类型的事物我还
使用 Karma / Jasmine 进行 Angular 8 测试 -> 角度路由中的 loadChildren 未覆盖 100% 代码覆盖率

从 Angular 7 升级到 Angular 8 后应用程序路由的 loadChildren 发生了重大变化当这些问题得到修复并且所有测试都在运行时我不再获得 100 的代码覆盖率因为 loadChildren 不再是字符串而
直接调用 vs 调用 vs 启动

我在使用 Tivoli Workload Scheduler 运行批处理文件时遇到此问题有一个第三方程序假设它的名称是program exe 该批处理文件包含以下命令来调用program exe program exe param1 p
多个力布局图，其中 d3 位于单独的 svg/div 中

我在使用 d3 创建多个力布局图并从 json 文件读取数据时遇到问题我使用 for 循环来迭代图表为每个图表创建一个单独的 div 其中包含一个 svg 问题是力布局仅应用于最后创建的布局因此基本上其他布局仅在左上角显示一个点我
UICollectionView 上的 register(_:forCellWithReuseIdentifier:) 有什么问题？

我正在与一个UICollectionView As dequeueReusableCell withReuseIdentifier for 期望您必须使用以下方法注册类或 nib 文件register forCellWithReuseIde
以极高的速度获取行

我在 Oracle 中有一个非常大的表数亿行包含数字和字符串我需要读取该表的所有内容对其进行格式化并写入文件或任何其他资源一般来说我的解决方案如下所示 package my odp import java io Buffered
传递零大小的数组，保存分配？

在此代码示例中第 114 页基础扎实的 Java 开发人员 https rads stackoverflow com amzn click com 1617290068 最后一行 Update updates lu toArray new
当子组件发生变化时，父组件是否会重新渲染？

我有一个父组件如下所示 const Parent gt return
Code Golf：数字的质因数[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案
CruiseControl.Net 仪表板 + Apache

我正在尝试让 cc net 仪表板在也有 apache 的构建机器上运行我尝试按照描述安装 mod aspdotnethere http weblogs asp net israelio archive 2005 09 11 424852
辅助服务无法读取所有屏幕内容

Issue 没有在 Android 馅饼中获取屏幕上的所有文本检查直到牛轧糖代码工作正常 Device 小米 MiA1 Android One 版本 9 0 XML 设置
禁用右键单击表单字段级别

我需要通用功能可以禁用右键单击表单字段 document oncontextmenu function e var el window event srcElement e target var tp el tagName if tp t
在 test_package 中使用过滤器参数来跳过测试

我想在期间运行我的包单元测试R CMD check 但跳过需要互联网连接的测试按照惯例所有需要互联网的单元测试都有这个词network在他们的文件名中因此我的run all R包含 library testthat test pack
未知自定义结构上的结构化绑定

简洁版本我希望能够将结构转换为元组至少是类型在下面的代码中转换为元组函数不起作用因为可变参数不能在结构化绑定中使用据我所知关键行是自动值值 struct Vec3 float x float y float z temp
PySpark：添加一个新列，其中包含从列创建的元组

这里我创建了一个数据框如下所示 df spark createDataFrame a 5 R X b 7 G S c 8 G S Id V1 V2 V3 看起来像 Id V1 V2 V3 a 5 R X b 7 G S c 8 G S 我

PySpark：添加一个新列，其中包含从列创建的元组

PySpark：添加一个新列，其中包含从列创建的元组 的相关文章

随机推荐

热门标签

PySpark：添加一个新列，其中包含从列创建的元组的相关文章