在pyspark中将RDD转换为Dataframe

2024-07-01

我正在尝试将 RDD 转换为 pyspark 中的 Dataframe。

My RDD:

[(['abc', '1,2'], 0), (['def', '4,6,7'], 1)]

我想要 Dataframe 形式的 RDD:

Index Name Number
 0    abc   [1,2]
 1    def   [4,6,7]

我试过:

rd2=rd.map(lambda x,y: (y, x[0] , x[1]) ).toDF(["Index", "Name" , "Number"])

但我收到错误

 An error occurred while calling 
z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: 
Task 0 in stage 62.0 failed 1 times, most recent failure: Lost task 0.0 
in stage 62.0 (TID 88, localhost, executor driver): 
org.apache.spark.api.python.PythonException: Traceback (most recent 
call last):

你能告诉我,我哪里出错了吗?

Update:

rd2=rd.map(lambda x: (x[1], x[0][0] , x[0][1]))

我的 RDD 格式为:

[(0, 'abc', '1,2'), (1, 'def', '4,6,7')]

转换为数据框:

rd2.toDF(["Index", "Name" , "Number"])

它仍然给我错误:

An error occurred while calling o2271.showString.
: java.lang.IllegalStateException: SparkContext has been shutdown
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2021)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2050)

RDD.map采用一元函数:

rdd.map(lambda x: (x[1], x[0][0] , x[0][1])).toDF(["Index", "Name" , "Number"])

所以你不能通过二进制一。

如果你想分割数组:

rdd.map(lambda x: (x[1], x[0][0] , x[0][1].split(","))).toDF(["Index", "Name" , "Number"])
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在pyspark中将RDD转换为Dataframe 的相关文章

  • 为什么我不能将 addstr() 添加到 pythoncurses 窗口中的最后一行/列?

    使用Python 我尝试使用addstr 将光标位置写入curses 窗口的右下角 但出现错误 ScreenH 2工作正常 但打印在窗口底部的第二行 ScreenH 1根本不起作用 我究竟做错了什么 import curses Screen
  • 如何在 Python 中执行等效的 Excel INDEX MATCH

    我有一个问题 关于如何执行相当于使用 Excel 中的 INDEX MATCH 函数返回值并在 Python 中应用它的操作 作为一名对大型数据集执行数据分析和操作的 Excel 用户 为了提高效率 我已转向 Python 我试图做的是根据
  • 使用具有阿拉伯字符的 json.dumps 将字典转换为 json [重复]

    这个问题在这里已经有答案了 我有一本包含阿拉伯语单词的字典 例如 data name name print json dumps data file open data json a encoding utf 8 Output name u
  • 在Python中使用argparse解析整个JSON

    我正在尝试使用 ARGPARSE 库在一个简单的参数中解析整个 Json 问题是当它遇到儿子内部的不同元素 例如 和 时 它会突然停止 这是测试代码 parse py import argparse parser argparse Argu
  • Python 内存使用情况

    因此 我有一些代码接收一组文件 将其可以缝合在一起 然后绘制它们 我发布了大部分代码 试图使其更具可读性 如果需要 可以添加更多代码 for paths dirs files in os walk start path for d in d
  • 二维数组 matplotlib 的颜色图

    所以 我认为这会非常简单 但我一直很难在一个易于理解的示例中找到我正在寻找的内容 基本上我想制作相图 所以假设我有一个二维数组 我怎样才能让 matplotlib 将其转换为我可以附加标题 轴和图例 彩条 的图 我正在寻找一种极其简单的基本
  • 如何在pytorch中使用多个GPU?

    我使用此命令来使用 GPU device torch device cuda 0 if torch cuda is available else cpu 但是 我想使用两个 GPUjupyter 像这样 device torch devic
  • 如何在 Anaconda(Jupyter 笔记本)中导入 python 自定义类

    我无法找到如何使用 anaconda 中的 Jupyter 笔记本在 Python 中导入自定义类 在我的工作文件夹中有一个文件 用户 ipynb 包含类名User 在同一文件夹中的其他文件中 我尝试使用以下命令导入此类 从用户导入用户 我
  • 从图像中读取文本

    关于将这些图像转换为文本有什么建议吗 我正在使用 pytesseract 除了这个之外 它在大多数情况下都工作得很好 理想情况下 我会准确地读取这些数字 最坏的情况我可以尝试使用 PIL 来确定 左边的数字是否为零 从左边开始 找到第一个白
  • 使用 itertools.product 并想要播种一个值

    所以我写了一个小脚本来从网站下载图片 它通过 7 个字母字符值 其中第一个字符始终是数字 问题是 如果我想停止脚本并再次启动它 我必须从头开始 我可以用我得到的最后一个值以某种方式播种 itertools product 吗 这样我就不必再
  • 使用python docx合并word文档

    我有几个单词文件 每个文件都有特定的内容 我想要一个片段来展示或帮助我弄清楚如何在使用 Python 时将单词文件合并到一个文件中docx图书馆 例如 在 pywin32 库中我执行了以下操作 rng self doc Range 0 0
  • Discord.py 提供角色的反应机器人

    我如何制作一个机器人 当人们对特定事物做出反应时 它可以为他们分配角色 到目前为止我有这个但它不起作用 client event async def on ready channel client get channel 513546504
  • rbind 两个 data.frame 保留行顺序和行名称

    我有一个清单data frame我想将对象行相互追加 即merge all T 然而 merge似乎删除了我需要保持完整的行名称 有任何想法吗 例子 x data frame a 1 2 b 2 3 c 3 4 d 4 5 row name
  • Python:使用用户输入作为类名的类工厂

    我想动态地将类属性添加到超类 此外 我想创建动态继承自该超类的类 并且这些子类的名称应取决于用户输入 有一个超类 Unit 我可以在运行时向其添加属性 这已经有效了 def add attr cls name value setattr c
  • Apache24-x86-VC9 与 mod_wsgi 说,“AH00419:master_main:创建子进程失败。正在退出。”并且不会启动

    我正在尝试在我的 Windows 版本的 Apache24 上安装 WSGI 功能 当我尝试启动该服务时 我在 error log 中收到以下内容 Wed Dec 23 10 24 33 404057 2015 ssl warn pid 2
  • 使用后禁用按钮

    最近我决定重写我的不和谐机器人并添加按钮 到目前为止我遇到的主要问题是我无法禁用按钮就在被按下之后人们被告知是关于button disabled True实际上 它会禁用该按钮 但它只是将其发送为禁用状态 因此永远无法按下它 我想要的是能够
  • Matplotlib 中的月份定位器

    我有这样的情节 我想更改 12 个位置的刻度 以这种格式指示相应的月份 Jan Feb Mar 当我使用 MonthLocator 函数时 刻度线从图中消失 ax plt gca ax set xlim 0 365 ax xaxis set
  • Selenium 不打开指定的 URL 并显示数据:,

    我正在尝试在 chrome 中使用 selenium 打开 URL 我有 chromedriver 可用 以下是我要执行的代码 from selenium import webdriver chrome options webdriver
  • 通过串口从python向Arduino发送数据

    如果在串行端口上读取字符 s 我试图让 Arduino 触发继电器 该字符 s 是由 python 根据从屏幕读取的图像发送的 我的问题是arduino似乎无法从串行端口读取 因为它从不执行if条件 我的猜测是两者之间存在某种死锁 这就是为
  • Python 中 NLTK 的命名实体识别。识别网元

    我需要将单词分类为词性 比如动词 名词 副词等等 我用的是 nltk word tokenize to identify word in a sentence nltk pos tag to identify the parts of sp

随机推荐

  • 字符集中字符的顺序

    是否通过标准保证字符的顺序 例如 我可以算出字符集表中 1 符号后面跟着 2 符号吗 或者它是特定于平台的 1999 年的 C 标准对字符集是这样规定的 基本源字符集和基本执行字符集都应具有以下成员 拉丁字母表中的 26 个大写字母 拉丁字
  • 自定义 iOS 推送通知声音

    我一直面临一个问题 我在 iOS 中使用自定义声音实现了推送通知 它是一个 MP3 文件 当我在 iOS 5 中收到推送通知时它播放得很好 但在 iOS4 中 它不播放任何声音 你能帮我解决这个问题吗 代码是这样的 aps badge 10
  • 执行 Mongo 查询 db.collection.runCommand("text",{"search":"search text"})

    我需要在我的网站中添加全文搜索选项 在 mongodb 中添加数据库 蒙戈查询 db collection runCommand text search search text 给出了结果 但是如何使用C 执行它 collection In
  • 如何让 Meteor Cordova 应用程序允许访问域

    我刚刚做了流星更新 现在有版本 流星1 0 4 科尔多瓦4 2 0 我最近还使用 mup deploy 将我的服务器移动到数字海洋 我现在发现 虽然桌面和移动网站运行良好 但在 Android 移动应用程序中 图像不再加载 这些图像是公共
  • Angular Material 7 Datepicker:禁用多年视图

    我使用 angular material 7 0 0 rc 0 中的 MatDatepicker 并制作了一个复杂的过滤器 将时间选择器中的每个可见日期与包含大约 200 或 300 个值的数组中的每一天进行比较 每次我将日期选择器切换到多
  • 如何解决 npm install 在非 MAC 操作系统上抛出 fsevents 警告的问题?

    正在抛出以下警告npm install命令 npm WARN optional SKIPPING OPTIONAL DEPENDENCY email protected cdn cgi l email protection node mod
  • 使用device_filter.xml资源文件过滤USB枚举结果

    按照中的说明进行操作Android USB 主机文档 http developer android com guide topics connectivity usb host html discovering d 我设法通过USB DEV
  • 在 HIVE 中运行查询时如何更改 Tez 作业名称

    当我使用 Tez 提交 Hive SQL 时 如下所示 hive default gt select count from simple data 在资源管理器 UI 中 作业名称显示类似HIVE 9d1906a2 25dd 4a7c 9e
  • PostgreSQL - 插入包含数组的复合类型数组

    我有一个包含 TEXT 数组等的复合类型 我在主表中使用它来创建复合类型的数组 如何生成 INSERT 命令 不使用复合类型的默认字段名称 我可以使用复合数组创建一个临时表 然后将其插入主表吗 例如 DROP TABLE collectio
  • 返回每行最大值的列标题

    我有一个电子表格 每月我需要根据该月的表格返回顶级产品 我在下面复制了当前设置的屏幕截图 我目前正在通过创建一个附加列 列H 它使用INDEX MATCH and MAX函数返回该行中最高产品的名称 然后我用另一个INDEX MATCH作为
  • 为什么 HTML5 Media Source 视频无法在 IOS 上运行?

    看来两者 HLS and MPEG DASH 使用相同的Media Source ExtensionAPI 那么为什么HLSvideo仅适用于 IOS 为什么不MPEG DASH在 IOS 上工作吗 造成这个 的核心区别是什么 http n
  • 媒体对象上的 javafx UNKNOWN 持续时间

    我是 Java 和 JavaFX 的新手 过去几年我一直在使用 QT 在 Python 上进行开发 现在我正在使用 Java 和 JavaFX 进行开发 我正在开发一个程序 可以为用户设定的时间播放音乐文件 然后停止 因此 我需要从媒体对象
  • 为什么我们要在invokeAll方法之后调用join?

    我正在尝试了解 ForkJoinPool 框架并遇到以下示例 public class ArrayCounter extends RecursiveTask
  • 正则表达式替换“NO-BREAK SPACE”

    我正在寻找一个正则表达式来替换字符串中的 NO BREAK SPACE 有一些与 NO BREAK SPACE 相关的问题 但似乎没有一个问题能让我找到正确的答案 到目前为止 我尝试使用 字符串 AB 的第二个字符是不间断空格 但没有成功
  • 使用 ggplot2 将抖动应用于箱线图中的异常值数据

    您知道如何将抖动仅应用于箱线图的异常值数据吗 这是代码 ggplot data a aes x y a V8 geom boxplot outlier size 0 5 geom point data a aes x y a V8 54 c
  • 如何在条形图上添加值标签

    我正在创建一个条形图 但我不知道如何在条形图上添加值标签 在条形图的中心或正上方 我相信解决方案是使用 文本 或 注释 但我 a 不知道该使用哪一个 一般来说 还没有弄清楚何时使用哪一个 b 无法看到任何一个来呈现值标签 这是我的代码 im
  • 具有传输状态的 Angular 通用 flickring

    我使用 Angular 7 和 NodeJS Express 作为后端 API 我使用 Angular Universal 进行服务器端渲染以实现 SEO 角度 SSR 网站闪烁后 我使用基于 JWT 令牌的身份验证 并在每个 Http 请
  • 在 webpackEmptyContext 中找不到模块“../assets/logo.png”(eval 在 ./src/component

    我正在尝试使用 props 将图像 url 加载到组件中 但似乎 require 无法接受任何变量 但是 如果我给 require 一个纯文本作为参数 它就可以工作 这个给出了错误 在 webpackEmptyContext 中找不到模块
  • git svn rebase 导致“字节顺序不兼容”错误

    以下是我尝试 git svn rebase 时遇到的错误 Byte order is not compatible at lib Storable pm autosplit into lib auto Storable retrieve a
  • 在pyspark中将RDD转换为Dataframe

    我正在尝试将 RDD 转换为 pyspark 中的 Dataframe My RDD abc 1 2 0 def 4 6 7 1 我想要 Dataframe 形式的 RDD Index Name Number 0 abc 1 2 1 def