Pyspark 将结构数组转换为字符串

2024-03-16

我在 Pyspark 中有以下数据框

+----+-------+-----+                                                            
|name|subject|score|
+----+-------+-----+
| Tom|   math|   90|
| Tom|physics|   70|
| Amy|   math|   95|
+----+-------+-----+

I used collect_list and struct函数来自pyspark.sql.functions

df.groupBy('name').agg(collect_list(struct('subject', 'score')).alias('score_list'))

获取以下数据框

+----+--------------------+
|name|          score_list|
+----+--------------------+
| Tom|[[math, 90], [phy...|
| Amy|        [[math, 95]]|
+----+--------------------+

我的问题是如何转换最后一列score_list放入字符串并将其转储到 csv 文件中，如下所示

Tom     (math, 90) | (physics, 70)
Amy     (math, 95)

感谢您的帮助，谢谢。

Update: Here https://stackoverflow.com/questions/41788919/concatenating-string-by-rows-in-pyspark是一个类似的问题，但并不完全相同，因为它直接来自string到另一个string。就我而言，我想先转移string to collect_list<struct>最后将其字符串化collect_list<struct>.

根据您的更新和评论，对于火花2.4.0+，这是使用 Spark SQL 内置函数对结构数组进行字符串化的一种方法：转换 https://spark.apache.org/docs/2.4.0/api/sql/index.html#transform and 数组连接 https://spark.apache.org/docs/2.4.0/api/sql/index.html#array_join:

>>> df.printSchema()
root
 |-- name: string (nullable = true)
 |-- score_list: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- subject: string (nullable = true)
 |    |    |-- score: integer (nullable = true)

>>> df.show(2,0)
+----+---------------------------+
|name|score_list                 |
+----+---------------------------+
|Tom |[[math, 90], [physics, 70]]|
|Amy |[[math, 95]]               |
+----+---------------------------+

>>> df1.selectExpr(
        "name"
      , """
         array_join(
             transform(score_list, x -> concat('(', x.subject, ', ', x.score, ')'))
           , ' | '
         ) AS score_list
        """
).show(2,0)

+----+--------------------------+
|name|score_list                |
+----+--------------------------+
|Tom |(math, 90) | (physics, 70)|
|Amy |(math, 95)                |
+----+--------------------------+

Where:

Use 转换（）将结构数组转换为字符串数组。对于每个数组元素（结构体x），我们用concat('(', x.subject, ', ', x.score, ')')将其转换为字符串。
Use 数组连接()连接所有数组元素（StringType）|，这将返回最终的字符串

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark 将结构数组转换为字符串的相关文章

Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
如何计算总和的平方和？

我有一笔款项需要加快处理速度在一种情况下是 S x y k l Fu ku Fv lv Fx kx Fy ly 另一种情况是 S x y S k l Fu ku Fv lv Fx kx Fy ly 2 注意 S indices 是这些索引
无法在 python 中导入名称 GoogleMaps

我使用下面的代码来获取地址的纬度和经度 from googlemaps import GoogleMaps gmaps GoogleMaps api key address Constitution Ave NW 10th St NW Wa
如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
python 中的子进程调用以使用 JAVA_OPTS 调用 java jar 文件

示例代码 import subprocess subprocess call java jar temp jar 如何在上面的命令中指定JAVA OPTS 当我使用上述命令时我收到 java lang OutOfMemoryError 无
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
python 没有名为serial的模块

我的 python 程序有问题我编写了程序来将数据温度从 arduino 获取到我的树莓派 sqlite 数据库但它在第 4 行导入串行处给了我一个错误提示 ImportError 没有名为串行的模块我使用 python3
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
如何编辑 QProgressBar 的样式表

我无法在我的应用程序中编辑进度条的颜色仅编辑文本颜色 pyhton 3 9 PySide6 QT Creator 7 0 2 Python应用程序 https i stack imgur com 6hKFI png import sys
仅获取图像中的外部轮廓

我有这段代码可以在图像中绘制轮廓但我只需要外部轮廓 import cv2 import numpy as np camino C Users Usuario Documents Deteccion de Objetos 123 jpg
为什么类型提示“float”接受“int”，而它甚至不是子类？

一方面我了解到数字可以int or float应将类型注释为float 来源 PEP 484 类型提示 https www python org dev peps pep 0484 the numeric tower and 这个计算器问
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口

随机推荐

具有旧 Facebook 应用程序版本的 Facebook SDK 3.0 重定向到浏览器并卡住

我的应用程序中有一个 FB AuthButton 正在连接到 FB 进程我的设备正在运行旧版本的 FB 应用程序版本 1 8 3 1 8 4 当我单击登录按钮时该过程不会启动本机应用程序而是调用浏览器来完成该过程在日志中我看到这些
Javascript 可以检查文件的内容更改吗？

Example I have var r new FileReader r onload function e drawGraph r result r readAsText f 从用户输入的文件 f 绘制图形有没有办法检查文件 f 是否
使用 Java 布局管理器的目的是什么？

似乎每当我尝试创建一个程序时我总是会使用setLayout null 在 Java 中使用命令因为我喜欢绝对定位我要放入 Swing 组件上的任何内容从我读到的内容来看每个人都在说使用布局管理器来简化编码过程但它是如何简化的呢平
从Android手机内存中读取文本文件

我只想在手机内存中创建一个文本文件并且必须读取其内容才能显示现在我创建了一个文本文件但它不存在于路径 data data package name file name txt 中并且它没有在模拟器上显示内容我的代码是 public
完整日历 - 拖放 - 自定义

我正在使用 React 调度程序 FullCalendar 我喜欢保留拖放功能来将事件从一种资源更改为另一种资源但是有没有办法禁止水平拖动来改变时间呢同样现在拖放的工作方式就像事件将从一个资源粘到另一个资源一样并且没有平滑的拖动操作
如何使用 jQuery UI 调整 datatables.js 列的大小

我在 stackoverflow 中找到了调整表列大小的解决方案 jQuery UI 使用表格和 colspan 调整大小 https stackoverflow com questions 18812432 jquery ui resiz
图实现C++

我想知道如何用 C 快速编写图的实现我需要数据结构易于操作和使用图算法例如 BFS DFS Kruskal Dijkstra 我需要这个实现来参加算法奥林匹克竞赛因此编写数据结构越容易越好你能建议这样的DS 主要结构或类以及其中的内
找不到满足 torch>=1.0.0 要求的版本？

找不到满足要求的版本 torch gt 1 0 0 找不到 torch gt 1 0 0 的匹配发行版来自 stanfordnlp 如果您的 Python 版本太新也可能会发生这种情况目前使用 Pytorch不支持3 7 9以上版本
InvalidDataAccessApiUsageException：执行更新/删除查询 Spring XML 到 Java 配置

我正在尝试将 spring xml 配置转换为 java 配置通过 XML 配置可以完美地实现这一点但是如果我使用 java 配置初始值设定项它会引发以下异常当它尝试运行 JQL 时会发生这种情况但应用程序正常启动所有 JPA
CocoaPods 错误：RPC 失败； curl 18 传输已关闭，剩余未完成的读取数据

当我尝试使用 CocoaPods 导入 Realm 时如下所示 pod install verbose no repo update 然后发生错误 error RPC failed curl 18 transfer closed with
引用c++中的引用

我正在研究 C 中的参考概念并且我对 C 完整参考中的这个陈述有点困惑您不能引用其他引用那么在这种情况下发生了什么 int var 10 int ref var int r ref ref r ref cout lt lt var l
返回两个圆之间的 x,y 交点的 JavaScript 函数？

我得到了两个圆的 x y 中心位置及其半径但我需要使用 JavaScript 找到它们的交点用红色标记我认为就数学而言最好的解释已经找到here http paulbourke net geometry circlesphere 两个
LEFT OUTER JOIN SUM 双倍问题

表购物 shop id shop name shop time 1 Brian 40 2 Brian 31 3 Tom 20 4 Brian 30 表香蕉 banana id banana amount banana person 1
在数组第三维上应用函数

我有一个大数组这是一个可复制的示例 cube lt array c 1 10 5 15 5 5 1 18 c 4 4 3 cube 1 1 2 3 4 1 1 5 9 7 2 2 6 10 8 3 3 7 5 9 4 4 8 6 10 2
添加条目到task_struct并初始化为默认值

我想添加一个条目到进程控制块结构 task struct 让我们说一种标记某些进程的方法我想将除一些特殊进程之外的所有进程的该字段初始化为 0 稍后通过调用sched setscheduler 我将为特殊进程设置此标志有谁知道如
使用 RequireJS（和 Jasmine/Sinon）时如何在另一个视图渲染方法中存根 Backbone View 实例化

我正在尝试使用 Jasmine 和 Sion 编写单元测试但在使用 RequireJs 加载模块时我很难找到与以下内容等效的内容 sinon stub window MyItemView 使用 RequireJs 时我无法以这种方式存
Google Maps Android API v2，标记标题/片段显示错误

我使用 Google Maps Android API v2 与 Android 来显示当前位置和附近的标记使用 Google Places API 接收附近地点的位置和标题问题是标题片段中的非英文名称显示失败例如希伯来语名字附
让 ipython 在我按回车键时始终执行命令？

迁移到 ipython 后我注意到有时 return 键会导致换行而不是执行命令例如如果我的光标之前 in print 这会导致 print 我怎样才能让它运行print 在这种情况和其他情况下当您处于多行模式时会发生这种情况例如
Google 图表嵌入 API 无法正常工作

我正在使用 Embed API 从 ServiceAccount 在我的网站上包含 GA 图表该网站是一个使用 AngularJS 的单页应用程序我为每种图表类型和控制器创建了多个指令将其命名GAController 在他们之间共享
Pyspark 将结构数组转换为字符串

我在 Pyspark 中有以下数据框 name subject score Tom math 90 Tom physics 70 Amy math 95 I used collect list and struct函数来自pyspark s

Pyspark 将结构数组转换为字符串

Pyspark 将结构数组转换为字符串 的相关文章

随机推荐

热门标签

Pyspark 将结构数组转换为字符串的相关文章