在pyspark中将RDD转换为Dataframe

2024-07-01

我正在尝试将 RDD 转换为 pyspark 中的 Dataframe。

My RDD:

[(['abc', '1,2'], 0), (['def', '4,6,7'], 1)]

我想要 Dataframe 形式的 RDD：

Index Name Number
 0    abc   [1,2]
 1    def   [4,6,7]

我试过：

rd2=rd.map(lambda x,y: (y, x[0] , x[1]) ).toDF(["Index", "Name" , "Number"])

但我收到错误

 An error occurred while calling 
z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: 
Task 0 in stage 62.0 failed 1 times, most recent failure: Lost task 0.0 
in stage 62.0 (TID 88, localhost, executor driver): 
org.apache.spark.api.python.PythonException: Traceback (most recent 
call last):

你能告诉我，我哪里出错了吗？

Update:

rd2=rd.map(lambda x: (x[1], x[0][0] , x[0][1]))

我的 RDD 格式为：

[(0, 'abc', '1,2'), (1, 'def', '4,6,7')]

转换为数据框：

rd2.toDF(["Index", "Name" , "Number"])

它仍然给我错误：

An error occurred while calling o2271.showString.
: java.lang.IllegalStateException: SparkContext has been shutdown
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2021)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2050)

RDD.map采用一元函数：

rdd.map(lambda x: (x[1], x[0][0] , x[0][1])).toDF(["Index", "Name" , "Number"])

所以你不能通过二进制一。

如果你想分割数组：

rdd.map(lambda x: (x[1], x[0][0] , x[0][1].split(","))).toDF(["Index", "Name" , "Number"])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

RDD

在pyspark中将RDD转换为Dataframe 的相关文章

为什么我不能将 addstr() 添加到 pythoncurses 窗口中的最后一行/列？

使用Python 我尝试使用addstr 将光标位置写入curses 窗口的右下角但出现错误 ScreenH 2工作正常但打印在窗口底部的第二行 ScreenH 1根本不起作用我究竟做错了什么 import curses Screen
如何在 Python 中执行等效的 Excel INDEX MATCH

我有一个问题关于如何执行相当于使用 Excel 中的 INDEX MATCH 函数返回值并在 Python 中应用它的操作作为一名对大型数据集执行数据分析和操作的 Excel 用户为了提高效率我已转向 Python 我试图做的是根据
使用具有阿拉伯字符的 json.dumps 将字典转换为 json [重复]

这个问题在这里已经有答案了我有一本包含阿拉伯语单词的字典例如 data name name print json dumps data file open data json a encoding utf 8 Output name u
在Python中使用argparse解析整个JSON

我正在尝试使用 ARGPARSE 库在一个简单的参数中解析整个 Json 问题是当它遇到儿子内部的不同元素例如和时它会突然停止这是测试代码 parse py import argparse parser argparse Argu
Python 内存使用情况

因此我有一些代码接收一组文件将其可以缝合在一起然后绘制它们我发布了大部分代码试图使其更具可读性如果需要可以添加更多代码 for paths dirs files in os walk start path for d in d
二维数组 matplotlib 的颜色图

所以我认为这会非常简单但我一直很难在一个易于理解的示例中找到我正在寻找的内容基本上我想制作相图所以假设我有一个二维数组我怎样才能让 matplotlib 将其转换为我可以附加标题轴和图例彩条的图我正在寻找一种极其简单的基本
如何在pytorch中使用多个GPU？

我使用此命令来使用 GPU device torch device cuda 0 if torch cuda is available else cpu 但是我想使用两个 GPUjupyter 像这样 device torch devic
如何在 Anaconda（Jupyter 笔记本）中导入 python 自定义类

我无法找到如何使用 anaconda 中的 Jupyter 笔记本在 Python 中导入自定义类在我的工作文件夹中有一个文件用户 ipynb 包含类名User 在同一文件夹中的其他文件中我尝试使用以下命令导入此类从用户导入用户我
从图像中读取文本

关于将这些图像转换为文本有什么建议吗我正在使用 pytesseract 除了这个之外它在大多数情况下都工作得很好理想情况下我会准确地读取这些数字最坏的情况我可以尝试使用 PIL 来确定左边的数字是否为零从左边开始找到第一个白
使用 itertools.product 并想要播种一个值

所以我写了一个小脚本来从网站下载图片它通过 7 个字母字符值其中第一个字符始终是数字问题是如果我想停止脚本并再次启动它我必须从头开始我可以用我得到的最后一个值以某种方式播种 itertools product 吗这样我就不必再
使用python docx合并word文档

我有几个单词文件每个文件都有特定的内容我想要一个片段来展示或帮助我弄清楚如何在使用 Python 时将单词文件合并到一个文件中docx图书馆例如在 pywin32 库中我执行了以下操作 rng self doc Range 0 0
Discord.py 提供角色的反应机器人

我如何制作一个机器人当人们对特定事物做出反应时它可以为他们分配角色到目前为止我有这个但它不起作用 client event async def on ready channel client get channel 513546504
rbind 两个 data.frame 保留行顺序和行名称

我有一个清单data frame我想将对象行相互追加即merge all T 然而 merge似乎删除了我需要保持完整的行名称有任何想法吗例子 x data frame a 1 2 b 2 3 c 3 4 d 4 5 row name
Python：使用用户输入作为类名的类工厂

我想动态地将类属性添加到超类此外我想创建动态继承自该超类的类并且这些子类的名称应取决于用户输入有一个超类 Unit 我可以在运行时向其添加属性这已经有效了 def add attr cls name value setattr c
Apache24-x86-VC9 与 mod_wsgi 说，“AH00419：master_main：创建子进程失败。正在退出。”并且不会启动

我正在尝试在我的 Windows 版本的 Apache24 上安装 WSGI 功能当我尝试启动该服务时我在 error log 中收到以下内容 Wed Dec 23 10 24 33 404057 2015 ssl warn pid 2
使用后禁用按钮

最近我决定重写我的不和谐机器人并添加按钮到目前为止我遇到的主要问题是我无法禁用按钮就在被按下之后人们被告知是关于button disabled True实际上它会禁用该按钮但它只是将其发送为禁用状态因此永远无法按下它我想要的是能够
Matplotlib 中的月份定位器

我有这样的情节我想更改 12 个位置的刻度以这种格式指示相应的月份 Jan Feb Mar 当我使用 MonthLocator 函数时刻度线从图中消失 ax plt gca ax set xlim 0 365 ax xaxis set
Selenium 不打开指定的 URL 并显示数据:,

我正在尝试在 chrome 中使用 selenium 打开 URL 我有 chromedriver 可用以下是我要执行的代码 from selenium import webdriver chrome options webdriver
通过串口从python向Arduino发送数据

如果在串行端口上读取字符 s 我试图让 Arduino 触发继电器该字符 s 是由 python 根据从屏幕读取的图像发送的我的问题是arduino似乎无法从串行端口读取因为它从不执行if条件我的猜测是两者之间存在某种死锁这就是为
Python 中 NLTK 的命名实体识别。识别网元

我需要将单词分类为词性比如动词名词副词等等我用的是 nltk word tokenize to identify word in a sentence nltk pos tag to identify the parts of sp

随机推荐

字符集中字符的顺序

是否通过标准保证字符的顺序例如我可以算出字符集表中 1 符号后面跟着 2 符号吗或者它是特定于平台的 1999 年的 C 标准对字符集是这样规定的基本源字符集和基本执行字符集都应具有以下成员拉丁字母表中的 26 个大写字母拉丁字
自定义 iOS 推送通知声音

我一直面临一个问题我在 iOS 中使用自定义声音实现了推送通知它是一个 MP3 文件当我在 iOS 5 中收到推送通知时它播放得很好但在 iOS4 中它不播放任何声音你能帮我解决这个问题吗代码是这样的 aps badge 10
执行 Mongo 查询 db.collection.runCommand("text",{"search":"search text"})

我需要在我的网站中添加全文搜索选项在 mongodb 中添加数据库蒙戈查询 db collection runCommand text search search text 给出了结果但是如何使用C 执行它 collection In
如何让 Meteor Cordova 应用程序允许访问域

我刚刚做了流星更新现在有版本流星1 0 4 科尔多瓦4 2 0 我最近还使用 mup deploy 将我的服务器移动到数字海洋我现在发现虽然桌面和移动网站运行良好但在 Android 移动应用程序中图像不再加载这些图像是公共
Angular Material 7 Datepicker：禁用多年视图

我使用 angular material 7 0 0 rc 0 中的 MatDatepicker 并制作了一个复杂的过滤器将时间选择器中的每个可见日期与包含大约 200 或 300 个值的数组中的每一天进行比较每次我将日期选择器切换到多
如何解决 npm install 在非 MAC 操作系统上抛出 fsevents 警告的问题？

正在抛出以下警告npm install命令 npm WARN optional SKIPPING OPTIONAL DEPENDENCY email protected cdn cgi l email protection node mod
使用device_filter.xml资源文件过滤USB枚举结果

按照中的说明进行操作Android USB 主机文档 http developer android com guide topics connectivity usb host html discovering d 我设法通过USB DEV
在 HIVE 中运行查询时如何更改 Tez 作业名称

当我使用 Tez 提交 Hive SQL 时如下所示 hive default gt select count from simple data 在资源管理器 UI 中作业名称显示类似HIVE 9d1906a2 25dd 4a7c 9e
PostgreSQL - 插入包含数组的复合类型数组

我有一个包含 TEXT 数组等的复合类型我在主表中使用它来创建复合类型的数组如何生成 INSERT 命令不使用复合类型的默认字段名称我可以使用复合数组创建一个临时表然后将其插入主表吗例如 DROP TABLE collectio
返回每行最大值的列标题

我有一个电子表格每月我需要根据该月的表格返回顶级产品我在下面复制了当前设置的屏幕截图我目前正在通过创建一个附加列列H 它使用INDEX MATCH and MAX函数返回该行中最高产品的名称然后我用另一个INDEX MATCH作为
为什么 HTML5 Media Source 视频无法在 IOS 上运行？

看来两者 HLS and MPEG DASH 使用相同的Media Source ExtensionAPI 那么为什么HLSvideo仅适用于 IOS 为什么不MPEG DASH在 IOS 上工作吗造成这个的核心区别是什么 http n
媒体对象上的 javafx UNKNOWN 持续时间

我是 Java 和 JavaFX 的新手过去几年我一直在使用 QT 在 Python 上进行开发现在我正在使用 Java 和 JavaFX 进行开发我正在开发一个程序可以为用户设定的时间播放音乐文件然后停止因此我需要从媒体对象
为什么我们要在invokeAll方法之后调用join？

我正在尝试了解 ForkJoinPool 框架并遇到以下示例 public class ArrayCounter extends RecursiveTask
正则表达式替换“NO-BREAK SPACE”

我正在寻找一个正则表达式来替换字符串中的 NO BREAK SPACE 有一些与 NO BREAK SPACE 相关的问题但似乎没有一个问题能让我找到正确的答案到目前为止我尝试使用字符串 AB 的第二个字符是不间断空格但没有成功
使用 ggplot2 将抖动应用于箱线图中的异常值数据

您知道如何将抖动仅应用于箱线图的异常值数据吗这是代码 ggplot data a aes x y a V8 geom boxplot outlier size 0 5 geom point data a aes x y a V8 54 c
如何在条形图上添加值标签

我正在创建一个条形图但我不知道如何在条形图上添加值标签在条形图的中心或正上方我相信解决方案是使用文本或注释但我 a 不知道该使用哪一个一般来说还没有弄清楚何时使用哪一个 b 无法看到任何一个来呈现值标签这是我的代码 im
具有传输状态的 Angular 通用 flickring

我使用 Angular 7 和 NodeJS Express 作为后端 API 我使用 Angular Universal 进行服务器端渲染以实现 SEO 角度 SSR 网站闪烁后我使用基于 JWT 令牌的身份验证并在每个 Http 请
在 webpackEmptyContext 中找不到模块“../assets/logo.png”（eval 在 ./src/component

我正在尝试使用 props 将图像 url 加载到组件中但似乎 require 无法接受任何变量但是如果我给 require 一个纯文本作为参数它就可以工作这个给出了错误在 webpackEmptyContext 中找不到模块
git svn rebase 导致“字节顺序不兼容”错误

以下是我尝试 git svn rebase 时遇到的错误 Byte order is not compatible at lib Storable pm autosplit into lib auto Storable retrieve a
在pyspark中将RDD转换为Dataframe

我正在尝试将 RDD 转换为 pyspark 中的 Dataframe My RDD abc 1 2 0 def 4 6 7 1 我想要 Dataframe 形式的 RDD Index Name Number 0 abc 1 2 1 def