如何在 PySpark 中转换数据帧列中的 JSON 字符串？

2024-01-02

我有一个 pyspark 数据框，如下所示

+--------------------+---+
|            _c0|_c1|
+--------------------+---+
|{"object":"F...|  0|
|{"object":"F...|  1|
|{"object":"F...|  2|
|{"object":"E...|  3|
|{"object":"F...|  4|
|{"object":"F...|  5|
|{"object":"F...|  6|
|{"object":"S...|  7|
|{"object":"F...|  8|

专栏_c0包含字典形式的字符串。

'{"object":"F","time":"2019-07-18T15:08:16.143Z","values":[0.22124142944812775,0.2147877812385559,0.16713131964206696,0.3102800250053406,0.31872493028640747,0.3366488814353943,0.25324496626853943,0.14537988603115082,0.12684473395347595,0.13864757120609283,0.15222792327404022,0.238663449883461,0.22896413505077362,0.237777978181839]}'

如何将上面的字符串转换为字典形式并获取每个键值对并将其存储到变量中？我不想将其转换为 pandas，因为它很昂贵。

您应该使用 Scala 的 Spark API 的等效项数据集.withColumn http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset and 来自_json http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24标准功能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

如何在 PySpark 中转换数据帧列中的 JSON 字符串？的相关文章

Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研

随机推荐

在 Android 应用程序中使用 smack 进行文件传输。

这个错误出现在日志中 from kutbi1 360degree Smack to akash 360degree Smack type error id hK1L6 5 gt
具有多个子字段的 Drupal 自定义 CCK 字段

有没有办法创建一个可以有多个值的复合字段每个值都有另一组复合值例如我们希望最后有这样的结构 Group 1 unlimited number of groups 子字段每组无限个子字段子字段 Group 2 子字段子字段对于定
如何防止 WordPress 页面被用户删除

一些 WordPress 插件会创建页面或帖子插件的正常功能依赖于该页面或帖子的存在例如管理电子邮件列表的插件可能依赖于取消订阅页面用户可能会有意或无意地删除该页面插件如何防止其页面被删除首先当您创建页面时您可以将其 ID
直接在 Intellij Idea/WebStorm 中运行笑话测试？

我在用着jest https facebook github io jest 在我的 ReactJS 应用程序中编写测试到目前为止要运行我的测试套件我需要输入 npm test 这是 package npm 中的片段 scripts
Python3没有这样的文件或目录

我正在尝试制作 python3 可执行脚本并从 shell 运行它们我的系统上安装了 python 3 4 0 所以我添加了 home spandan python codes 目录到Python路径因为我计划将我的脚本和模块保留在这
AWS CodePipeline 将多个存储库作为单一源进行跟踪

我正在调查 CodePipeline 是否适用于我们的用例我们有数百个存储库全部由 CodeCommit 托管除了较小的配置之外所有这些的构建测试发布过程都是相同的我想做的是建立一个管道用于构建测试发布在任何这些存储库中
R传单。将点数据分组到单元格中以汇总许多数据点

早上下午或晚上我有以下位置数据调整自网格单元内采样点的计数 https stackoverflow com questions 56217221 count of sampling points within a grid cell
Eclipse Luna CDT：什么是标头变体？

我很难让 Eclipse Indexer Codan 识别头文件中的某些数据声明有一个新的偏好索引所有标头变体 http wiki eclipse org CDT User NewIn83 Preferences for header v
使用“功能分支”与重构兼容吗？

特征分支是指每个功能都在自己的分支中开发只有在经过测试并准备好交付后才合并到主线中这允许产品所有者选择进入给定发货的功能并在出现更重要的工作时保留部分已编写的功能例如客户打电话给 MD 投诉重构正在改造代码以改进其设计
将应用程序更新到应用程序商店：审核时间以及商店的评分？

这太令人沮丧了我已将我们的应用程序上传到应用程序商店 8 天后获得批准然后我下载了它发现加速度计卡住了所以我去了itunes connect 将发布日期更改为未来的发布日期取消选中世界上所有的商店它说已被开发人员删除这就是我
透明着色器允许下面的对象显示在上面

在我的场景中笑脸带有 png 图像的四边形放置在 Y 0 处点带有平铺 3X3 的四边形放置在 Y 0 25 处我需要用于笑脸的着色器是透明漫反射因为我使用的是圆形 png 图像但我在下面使用的点显示在笑脸上方使用任何其
C读取bmp文件

我正在尝试将 bmp 文件读入我的程序但遇到了一些问题读入文件后如果我告诉它打印 pBmp gt header fileSize 它会显示 16 但如果我在十六进制编辑器中查看它如果我将该值修改为正确的文件大小则文件大小部分为 F
通过 PyTumblr 仅返回 20 个帖子

我在用PyTumblr https github com tumblr pytumblr返回我所有的帖子但它只返回 20 我找到了 posts 函数的 kwarg 称为 limit 但当我指定 1000 时它仍然返回 20 知道我做错了
在 C# 中使用 crl（证书吊销列表）验证证书

我想使用 CRL 属性验证证书但是当我在设置 CRL 检查标志后调用证书上的 verify 方法时会出现以下错误 1 撤销状态未知 gt 吊销功能无法检查证书的吊销情况 2 离线撤销 gt 吊销功能无法检查证书的吊销因为吊销服务器已
当相应的py被移动时自动删除pyc文件（Mercurial）

我三个月前就预见到这个问题可能会发生并被告知要努力避免它昨天我被它咬了一口很厉害现在它花了我真金白银我很想解决它如果我将一个 Python 源文件移动到另一个目录中我需要记住告诉 Mercurial 它已移动 hg move
ArrayList 的 ArrayList 添加和检索元素

我有一个整数数组列表 mainList 里面有整数数组 subList 我试图将整数数组元素添加到 mainList 并稍后显示它们将 subList 添加到 mainList 并显示 subList 中的所有元素 2 subLists
Windows - Android SDK 管理器未列出任何要安装的平台或软件包

当我使用可用的 exe 文件安装 Android SDK 并且打开 Android SDK 管理器后我看不到任何需要安装的附加软件包列出的只是 Tools 文件夹下的 Android SDK Tools Extras 文件夹下也不显示任
使用子目录时PyQt4 SIGNAL/SLOT问题

预先感谢您花时间阅读本文抱歉它有点冗长但希望它能完全解释问题包含演示该问题的剥离代码我的 PyQt4 信号插槽有问题虽然如果我在单个文件中编写我可以使一切正常工作但如果我希望使用的某些函数移动到子目录类我就无法使一切正
我的 CASE 语句查询有什么问题

我正在尝试解决 13http www sqlzoo net wiki The JOIN operation http www sqlzoo net wiki The JOIN operation 列出每场比赛以及每支球队的进球数如图所示
如何在 PySpark 中转换数据帧列中的 JSON 字符串？

我有一个 pyspark 数据框如下所示 c0 c1 object F 0 object F 1 object F 2 object E 3 object F 4 object F 5 object F 6 object S 7 obje

如何在 PySpark 中转换数据帧列中的 JSON 字符串？

如何在 PySpark 中转换数据帧列中的 JSON 字符串？ 的相关文章

随机推荐

热门标签

如何在 PySpark 中转换数据帧列中的 JSON 字符串？的相关文章