Pyspark:如何将 Spark 数据帧转换为 json 并将其保存为 json 文件?

2024-01-05

我正在尝试将 pyspark sql 数据帧转换为 json,然后另存为文件。

df_final = df_final.union(join_df)

df_final 包含如下值:

我尝试过这样的事情。但它创建了一个无效的 json。

df_final.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True)

{"Variable":"Col1","Min":"20","Max":"30"}
{"Variable":"Col2","Min":"25,"Max":"40"}

我的预期文件应包含如下数据:

[
{"Variable":"Col1",
"Min":"20",
"Max":"30"},
{"Variable":"Col2",
"Min":"25,
"Max":"40"}]

For pyspark您可以直接将数据帧存储到json文件中,无需将数据帧转换为json。

df_final.coalesce(1).write.format('json').save('/path/file_name.json')

并且您仍然想将数据帧转换为 json 那么您可以使用df_final.toJSON().

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark:如何将 Spark 数据帧转换为 json 并将其保存为 json 文件? 的相关文章

  • 在 Python 3 中动态导入模块的问题

    我遇到的情况是 在我的 Python 3 项目中 在运行时必须包含某些模块 我在用着importlib import module为了这 第二次更新 我确实找到了一种方法来做一些接近我想要的事情 一些额外的代码可能会使我的一些链接稍微偏离一
  • 对数据框的行进行排序

    我有以下数据框 adjusted RFC df Node Feature Indicator Scaled Class Direction True False 0 0 km lt 0 181 class 4 0 gt 1 NA 125 1
  • 如何得到将外力映射到广义力的矩阵?

    给定一个多体植物 我需要找到将外力 lambda 转换为广义力的矩阵 IE 以下方程中的 Phi 取自 Scott Kuindersma Frank Permenter 和 Russ Tedrake 的 稳定动态运动的有效可解二次规划 我的
  • 在 .vscode 中调试时遇到问题

    我最近在 VSCODE 中调试时遇到了一个大问题 我尝试通过搜索网站并重新安装一些扩展来自行修复它 而不是在中显示我的结果调试控制台它将以下输出写入我的terminal cd Users AVFL Documents Programming
  • 对于“迭代算法”,转换为 RDD 然后再转换回 Dataframe 有什么优势

    我在读高性能火花作者提出以下主张 虽然 Catalyst 优化器非常强大 但它目前遇到挑战的情况之一是非常大的查询计划 这些查询计划往往是迭代算法的结果 例如图算法或机器学习算法 一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
  • 如何将多行标签 xml 文件转换为 dataframe

    我有一个包含多个行标签的 xml 文件 我需要将此 xml 转换为正确的数据帧 我使用了spark xml 它只处理单行标签 xml数据如下
  • 导入错误:无法导入名称“PandasError”

    我对在 Mac 上运行的 Python 3x 非常陌生 当前使用 python 金融的 senddex 教程 尝试运行以下脚本 import datetime as dt import matplotlib pyplot as plt fr
  • keras 中的增量学习

    我正在寻找 scikit learn 的 keras 等效项partial fit https scikit learn org 0 15 modules scaling strategies html incremental learni
  • 如何更改Python使用的SQLite版本?

    我在 Debian 9 12 上安装了 Python 3 8 和 SQLite 3 16 2 并且需要升级到较新版本的 SQLite 我已经下载并编译了 SQLite 网站上提供的合并 并将其放入 usr bin 所以当我这样做时 sqli
  • 通过过滤对 Pyspark Dataframe 进行分组

    我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户 看看他们有多少要求 看看
  • Python 3:http.server 支持 ipv6 吗?

    Does http server http作为 Python 3 x 模块 支持 ipv6 例如 使用以下命令行代码 启动网络服务器 python m http server port 从 Python 3 8 开始 python m ht
  • 如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值?

    import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
  • 在 Python 中对非英语文本进行分词

    我有一个波斯语文本文件 其中包含如下几行 6 7 10 11 我想从这一行生成一个单词列表 对我来说 单词边框是数字 比如上面一行中的 6 7 等 还有 特点 所以列表应该是 我想在 Python 3 3 中执行此操作 最好的方法是什么 我
  • 类unix系统中的python和python3命令有什么区别?

    我通读了每个命令的描述 但每个命令的描述都是完全相同的 所以我不明白这两个命令在类 Unix 系统中的工作方式有何不同 谁能解释其中的区别吗 Python3命令的引入是因为python命令指向了python2 从那时起 Python3 已成
  • 将 Python 3 与 AWS lambda 结合使用

    可以在 lambda 中使用使用 Python3 构建的应用程序 而不仅仅是 python2 7 可能会考虑周围的选择 https gun io blog announcing zappa serverless python aws lam
  • 如何反思 PEP 484 类型提示?

    我观察到对于以下功能 def foo x int gt List int return x 1 可以使用表达式获取注释信息foo annotations 这产生 x
  • “初始化 MCI 时出现问题”播放声音问题

    我正在尝试使用 Playsound 播放代码文件夹中的文件 但是每次运行代码时 它似乎都能够调用该文件 但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
  • 如何在海龟图形中将多个按键绑定在一起?

    我正在尝试制作一个连接点的 python 游戏 我希望游戏记录 2 次按钮按下操作 示例 如果用户按向上和向右箭头键 乌龟将向东北方向移动 45 度 这是我的代码 import turtle flynn turtle Turtle win
  • 计算网页内的字数

    我需要使用 python3 计算网页内的单词数 我应该使用哪个模块 网址库 这是我的代码 def web f urllib request urlopen https americancivilwar com north lincoln h
  • 使用 asyncio 时应该如何创建属性?

    在创建使用 asyncio 的类时 我发现自己处于属性 getter 需要进行 io 操作的情况 因此该函数应该是一个协程 然而 等待房产的感觉却很不寻常 这是我的意思的一个最小的例子 该代码有效并且可以运行 import asyncio

随机推荐

  • ld:找不到 -lz 的库

    这让我发疯 当我尝试在模拟器上编译时 一切正常 但在设备上我收到此错误 ld library not found for lz Command Developer Platforms iPhoneOS platform Developer
  • 新版 Google Play 管理中心出现数以千计的奇怪崩溃

    Google Play 管理中心的 ANR 和崩溃部分最近已更新 可显示更多 ANR 和崩溃 自动从选择加入的用户收集 我在各种 Android 版本和设备上发现了很多奇怪的新崩溃 1 最常见的 每周出现数千次 没有任何类名的 ClassN
  • 什么是$cacheFactory?

    我完全找不到任何关于具体内容的信息 cacheFactory是什么以及它如何在您的应用程序中发挥作用 角度文档说 构造缓存对象并提供对它们的访问的工厂 cacheFactory http docs angularjs org api ng
  • 从数组中创建列表

    进行练习时遇到困难雄辩的Javascript书 http eloquentjavascript net 任务是从数组中创建一个列表 该列表是这样的 var list value 1 rest value 2 rest value 3 res
  • 样式输入文件和自动提交

    我试图有一个用户单击的单个文本链接 它会询问用户他 她想要上传哪个文件 然后自动将其发布到表单中 我怎样才能达到同样的效果 我知道我必须设置文件输入的样式 但如何让它在选择文件时自动发布 非常感谢 在页面中嵌入 javascript 是不好
  • Django:模板中显示的多维字典

    我有以下视图 但发现无法通过模板显示 sm request session get active semester semester dates SemesterDates objects filter semester sm schedu
  • jQuery 文件大小

    在jQuery的官方网站上 他们说缩小后的文件大小是18k 但是下载后 我发现是53 9K 下载后我需要做一些压缩吗 该网站声称它已缩小为 18kgzipped 因此 您需要设置 Web 服务器来压缩 JavaScript 文件才能查看文件
  • Outlook VSTO 功能区到主页 tabControlId

    我正在写一个VSTO http en wikipedia org wiki Visual Studio Tools for Office 微软Outlook http en wikipedia org wiki Microsoft Outl
  • 使用 Gmail API 从 Gmail 下载附件

    我在用邮箱API https developers google com gmail api访问我的 Gmail 数据以及谷歌Python API客户端 https github com googleapis google api pyth
  • 从 sklearn.pipeline.Pipeline 获取转换器结果

    我正在使用一个sklearn pipeline Pipeline我的聚类对象 pipe sklearn pipeline Pipeline transformer1 transformer1 transformer2 transformer
  • Javascript 按随机百分比机会执行函数

    可以说 我想按百分比机会触发一个函数 function A console log A triggered 50 chance to trigger if Math random gt 0 5 A 现在我想添加更多功能来偶然触发 我所做的是
  • Excel 将字段添加到 Xml 映射

    我在 Excel 2010 工作表上有一个 XML 地图 我会定期从 XML 文件的内容中刷新该地图 我最近向 XML 数据添加了一个新字段 并希望它显示在我的 XML 地图上 我只是希望能够添加新字段 但它看起来虽然必须再次导入整个结构
  • 您可以使用 NEST 2 从 InnerHits 获得强类型命中吗?

    我正在使用 NEST 2 客户端对我们的 Elasticsearch 执行查询 我们有一个查询 用于查询嵌套文档数组 并使用 InnerHits 在结果中包含嵌套文档的匹配项 有没有办法将 InnerHits 的结果强类型化到特定的 POC
  • 在 Firemonkey 中移动无边框表单

    在我使用的VCL形式中WM 系统命令 但在 firemonkey 中它是未声明的 我测试这段代码 procedure TForm4 dragPanelMouseDown Sender TObject Button TMouseButton
  • 为什么 VS 警告我 typeof(T) 永远不是泛型方法中提供的类型,其中类型参数仅限于实现 T?

    我希望这个问题是正确的 所以让我们举个例子 想象一下以下通用方法 public abstract class Base IDisposable public static IEnumerable
  • redux-form - 带有 FieldArray 组件的 asyncBlurFields

    我想知道如何在 FieldArray 内的 Field 组件上触发异步验证 我有类似的东西 class MyForm extends Component constructor props super props render const
  • 动态创建文本框 MVVM?

    我可以在我已经实现的 C 代码中动态创建文本框 但人们一直说我需要遵循 MVVM 模式 我研究了一下 它看起来真的很难 我只是无法习惯它 我需要动态创建文本框 将文本框中的信息保存到 SQL 然后能够重新打开它 这是一张描述我需要做的事情的
  • 如何在新选项卡中打开 PDF 文件

    我正在使用 JSF 我想在单击按钮时在新选项卡中打开 PDF 文件 XHTML
  • 仅适用于 Json.NET 中的一个属性的自定义序列化器,无需更改模型类

    我需要执行如下操作 但我需要在不添加属性或以其他方式污染模型类的情况下执行此操作 理想的解决方案是通过JsonSerializerSettings 不干扰其他自定义序列化 顺便说一句 以下内容来自这个问题 JSON NET 中特定对象的自定
  • Pyspark:如何将 Spark 数据帧转换为 json 并将其保存为 json 文件?

    我正在尝试将 pyspark sql 数据帧转换为 json 然后另存为文件 df final df final union join df df final 包含如下值 我尝试过这样的事情 但它创建了一个无效的 json df final