如何在pyspark中分解数据框的多列

2024-04-08

我有一个数据框，其中包含类似于以下内容的列中的列表。所有列中列表的长度不相同。

Name  Age  Subjects                  Grades
[Bob] [16] [Maths,Physics,Chemistry] [A,B,C]

我想以这样的方式分解数据框，以获得以下输出-

Name Age Subjects Grades
Bob  16   Maths     A
Bob  16  Physics    B
Bob  16  Chemistry  C

我怎样才能实现这个目标？

PySpark 添加了一个arrays_zip2.4 中的函数，这消除了使用 Python UDF 来压缩数组的需要。

import pyspark.sql.functions as F
from pyspark.sql.types import *

df = sql.createDataFrame(
    [(['Bob'], [16], ['Maths','Physics','Chemistry'], ['A','B','C'])],
    ['Name','Age','Subjects', 'Grades'])
df = df.withColumn("new", F.arrays_zip("Subjects", "Grades"))\
       .withColumn("new", F.explode("new"))\
       .select("Name", "Age", F.col("new.Subjects").alias("Subjects"), F.col("new.Grades").alias("Grades"))
df.show()

+-----+----+---------+------+
| Name| Age| Subjects|Grades|
+-----+----+---------+------+
|[Bob]|[16]|    Maths|     A|
|[Bob]|[16]|  Physics|     B|
|[Bob]|[16]|Chemistry|     C|
+-----+----+---------+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DataFrame

apachespark

PySpark

apachesparksql

如何在pyspark中分解数据框的多列的相关文章

TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

无法使用锚标记帮助程序使剃刀页面路由正常工作

背景这是一个后续问题最初的问题 https stackoverflow com questions 60223804 multiple routes to the same razor page 60257348我询问了 asp net
电子邮件确认错误rest-auth

我使用标准格式的确认电子邮件从allauth account views导入confirm email作为allauthemailconfirmation urlpatterns url r admin admin site urls u
C++17 中的歧义错误（模板模板参数和默认参数问题）

我的代码由 g 进行不同的解释c 14 and c 17标准标志 include
Oracle IN 语句中的参数？

有一个我需要修改的 c net 应用程序目前的查询有效地做到了这一点 select from contract where contractnum ContractNum 非常简单只是为了表明我们正在使用和一个参数该参数是从 C 应
Windows 7 中一个进程的 GDI 对象上限是多少？

有一个存在 GDI 泄漏的应用程序最终会达到 10 000 个分配的 GDI 对象并崩溃我尝试增加GDI进程句柄配额 http msdn microsoft com en us library windows desktop ms724
如何调试 OSX 代码签名拒绝？

我正在为 OSX 签署 install4j 安装程序但 OSX 拒绝它系统日志只报告被拒绝 spctl只报告被拒绝没有任何解释我如何确定被拒绝的原因我想你正在谈论看门人 https support apple com en us
在没有基于浏览器的 OAUTH 的情况下，如何使用 API 获取 Quickbooks 数据？

这与 Quickbooks 的在线版本 QBO 而非桌面版有关我们需要我们的服务器端代码能够登录并查询 Quickbook 中的一些数据就像您的 API 提供的那样并将这些信息提供给我们的计费系统这不会涉及浏览器并使用像curl这
ASP.NET 4 应用程序在什么 Windows 帐户下运行？

ASP NET MVC 4 应用程序在什么 Windows 用户帐户下运行当我将 MVC 应用程序部署到 IIS 7 时它不会将异常写入日志文件我在部署应用程序时进入源代码发现它没有写入日志文件的权限所需的权限因此我想向运行该
构建 gcc 4.6 时遇到问题：对“yylex”的未定义引用

我正在尝试构建 gcc 4 6 但我收到一些链接器错误看起来这意味着 bison 或 flex 没有链接到当 makefile 发出此命令时 gcc g fkeep inline functions DIN GCC W Wall Wwr
Django 使用用户配置文件扩展用户（错误：用户没有配置文件。）

someone can told me why this code don t working I m trying to create a registration form for users 我收到错误 RelatedObjectDo
如何解决 Maven exec 插件：类路径太长错误？

我有一个大型 Java 项目其中有大量 jar 文件依赖项当我尝试从 Eclipse 或 Netbeans 运行项目使用 exec 时 Maven 抛出异常结果是类路径上的条目数量过多仅包含所需条目的 2 3 有谁知道这个问题的解
如何让svg的颜色淡入淡出

我想要一个 svg 对象从颜色 A 淡入颜色 B 然后无限期地返回到颜色 A 到目前为止我使用的成功有限
如何在 SQL 中返回每个组的增量组号

我想在 SQL 中创建一个数据查询以增量方式对行组进行编号在公共日期时间分组并保持组编号在下一个日期时间递增依此类推正如我在使用分区语句时所看到的那样这些组号不得为每个组重置这是我的示例数据 ts DateTime I
从 gwt 中的代码触发点击事件

我在 gwt 中创建了一个自定义小部件它扩展了复合材料我正在其中使用焦点面板对于 FocusPanel 我添加了 ClickHandler 然后我添加了键盘监听器现在按 Enter 键它应该触发单击事件任何人都可以提供帮助吗我
Objective-C 运算符 (?) 和 (:)

做什么的 and 这里表示 define MAX a b a gt b a b 这是一个三元运算符 http en wikipedia org wiki Ternary operation 也可用于 C 语言 Objective C 是 C
如何在 geom_tile ggplot 中移动图块右/左端的刻度线和标签？

我无法将 geom tile 中的 x 轴标签包括刻度线移动到每个图块的右端我还想在左端添加零我尝试过休息和标签但没有运气使用中断和标签也不起作用我试图实现这个答案中所做的事情但建议的解决方案不起作用如何强制 x 轴刻度线
如何将 $_GET 路径与 file_exists 一起使用并保证其安全？

我有一个函数可以通过 jQuery 检查文件是否存在该函数调用 PHP 脚本在单击索引页面上的按钮更改某些图像时将使用该脚本 jQuery 函数 function fileExists path getJSON ajax fileExi
标准化 sql server 中迄今为止不同格式的 varchar 字段

我知道过去曾被问过类似的问题但他们仍然没有为我的案例提供适当的解决方案我有一个数据库表第三方其中有varchar列为datetime value 它包含以下格式的日期 11181980 8 18 1960 10 01 1960 04
如何在 sbt 中为我的项目设置系统属性？

我确信我错过了一些非常简单的东西我想设置系统属性java awt headless to true对于我的 sbt 项目正在阅读属性页面 http code google com p simple build tool wiki Pro
如何在pyspark中分解数据框的多列

我有一个数据框其中包含类似于以下内容的列中的列表所有列中列表的长度不相同 Name Age Subjects Grades Bob 16 Maths Physics Chemistry A B C 我想以这样的方式分解数据框以获得以下

如何在pyspark中分解数据框的多列

如何在pyspark中分解数据框的多列 的相关文章

随机推荐

热门标签

如何在pyspark中分解数据框的多列的相关文章