如何将 printSchema 的结果保存到 PySpark 中的文件中

2023-12-20

我用过df.printSchema()在 pyspark 中，它为我提供了具有树结构的模式。现在我需要将其保存在变量或文本文件中。

我尝试过以下保存方法，但没有成功。

v = str(df.printSchema())  
print(v) 
#and
df.printSchema().saveAsTextFile(<path>)

我需要以下格式保存的架构

|-- COVERSHEET: struct (nullable = true)                              
 |    |-- ADDRESSES: struct (nullable = true)
 |    |    |-- ADDRESS: struct (nullable = true)
 |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |    |-- _city: string (nullable = true)
 |    |    |    |-- _primary: long (nullable = true)
 |    |    |    |-- _state: string (nullable = true)
 |    |    |    |-- _street: string (nullable = true)
 |    |    |    |-- _type: string (nullable = true)
 |    |    |    |-- _zip: long (nullable = true)
 |    |-- CONTACTS: struct (nullable = true)
 |    |    |-- CONTACT: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |    |    |-- _name: string (nullable = true)
 |    |    |    |    |-- _type: string (nullable = true)

你需要treeString（由于某种原因，我在 python API 中找不到）

#v will be a string
v = df._jdf.schema().treeString()

您可以将其转换为 RDD 并使用saveAsTextFile

sc.parallelize([v]).saveAsTextFile(...)

或者使用 Python 特定的 API 将字符串写入文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

如何将 printSchema 的结果保存到 PySpark 中的文件中的相关文章

如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在

随机推荐

使用法语键盘布局（无小键盘）在 Mac 上的 Jupyter Ipython 笔记本中注释掉多行的快捷方式？

我正在尝试选择并评论在具有法语键盘布局且无小键盘的 Mac 上使用 Jupyter Notebook 实现多行要键入斜杠在此键盘上快捷键是Shift 当尝试在 Jupyter 上评论行时 with Ctrl Shift 它不起作用
按第一列对二维数组（列名不一致）进行排序

如何按每行中的第一个值对数组或行进行排序 array item1 gt 80 item2 gt 25 item3 gt 85 期望的输出 item2 gt 25 item1 gt 80 item3 gt 85 你需要使用usort http
如何在 Laravel 项目中为 VueJS 3 设置compilerOptions.isCustomElement

我正在 Laravel 项目中开发 VueJS 3 并且正在使用一个 JS 文件该文件为我提供了用于 Markdown 工具栏的元素基本上它是一组函数为我提供了应用所选降价选项的按钮一切工作正常但我收到了那些我希望它们消失的控制
从 UIImagePickerController 获取图像

我想从以下位置获取图像imagepickercontroller 但是我的代码没有任何效果这是代码 void imagePickerController UIImagePickerController picker didFinishPi
该帐户的队列中不能有超过 0 个构建

我是 AWS 的新手我正在尝试使用我的免费套餐帐户使用 AWS CodeBuild 构建我的 nodeJS 项目但收到此错误构建无法启动构建无法启动发生以下错误该帐户的队列中不能有超过 0 个构建我遵循简单的 aws 教程保
如何通过python裁剪一个文件夹中的所有图片并保存到另一个文件夹

我有一个照片文件夹想要裁剪它的 2 个角然后将 1 个角度旋转 180 度以获得 2 个相似的裁剪图像我在图像旋转和保存方面遇到问题这是我到目前为止得到的代码 from PIL import Image import os path
连接Python列表时出现问题

我正在尝试通过执行以下操作来连接两个列表其中一个列表仅包含一个元素 print 6 append 1 1 0 0 0 然而 Python 返回None 我究竟做错了什么使用运算符 gt gt gt 6 1 1 0 0 0 6 1 1
如何使用 Meteor 创建动态 URL？

我是网络开发新手对 Meteor 网站上的演示感到震惊并且想使用它到目前为止我只使用过 Google App Engine 为了在主类中处理动态 URL 我会编写如下内容 app webapp2 WSGIApplication 0
在 Eclipse 中将属性文件放在哪里以及如何访问本地和服务器上的路径

我看到了一些类似的问题但我不太理解它们所以我想问这个问题并以我自己的方式定制它我有一个属性文件存储在 src main resources 中然后在我的代码中引用它如下所示 Properties prop new Propert
如何使 Groovy / Grails 返回对象列表而不是对象列表列表？

我有一堂这样的课 class Foo static hasMany bars Bar 当我写的时候 Foo getAll 我得到一份清单Foo像这样的对象 Foo1 Foo2 Foo3 当我写的时候 Foo getAll bars 我得到一
Hibernate (4.1.2) 和 Spring (3.1.2) – ManyToMany 关系不在 JoinTable 中存储记录

我有一个问题需要你的帮助来解决这个问题希望这篇文章可以成为类似问题的参考在我的最小化业务模型中有用户和标题标题应首先创建并且可以分配给多个用户并且用户可以共享相同的标题因此我创建了两个名为 User 和 Title 的实体
OpenGL SL 和 OpenGL ES 2.0 SL 之间的区别

我需要为 Android 编写基于 opengl 的应用程序 OpenGL SL 和 OpenGL ES 2 0 SL 之间以及 OpenGL 和 OpenGL ES 之间有很大的区别吗如果我使用一些与通用 OpenGL 而不是 Open
如何获取目录 URL 的文件/目录列表？

假设我有一个网址 http java sun com j2se 1 5 pdf我想获取以下所有文件目录的列表pdf目录我正在使用 Java 5 我可以用这个程序获取目录列表http www httrack com http www ht
实体框架 5 更新记录

我一直在探索在 ASP NET MVC3 环境中编辑更新 Entity Framework 5 中的记录的不同方法但到目前为止没有一种方法满足我需要的所有条件我会解释原因我发现了三种方法我将提及它们的优缺点方法1 加载原始记录
如何使用 Material-ui 在工具栏内拥有全高选项卡？

我试图有一个固定的标题右侧应该是选项卡这
“gets() 未在此范围内声明”错误 [重复]

这个问题在这里已经有答案了使用以下代码我收到 gets 未在此范围内声明错误 include
在Vuejs中创建全局变量

我正在创建一个应用程序VueJS我想创建一个服务或全局变量来存储客户端是否向服务器发出请求我一直在考虑配置一个中断器在发出请求时将全局变量设置为 true 在请求完成时将变量设置为 false 因此当我使用加载器组件时它仅在变量为
如何设计数据库约束，以便两个实体只有在两个字段值匹配时才能具有多对多关系？

我有一个包含四个表的数据库如下所示地址簿 id 更多领域 Contact id地址簿 ID更多领域 Group id地址簿 ID更多领域联系方式组复合键组号联系方式我的关系是地址簿 gt 联系人的一对多关系地址簿 gt 组的一对
构建中的 Unity 动画故障

我的游戏中有一个角色带着雨伞和公文包雨伞和公文包都是角色装备的一部分他在编辑器和独立 PC 版本中的动画效果和外观都很棒参见下面的示例该角色还有一个打开雨伞的动画我正在使用mecanim 然而当我发布 Web Android 或
如何将 printSchema 的结果保存到 PySpark 中的文件中

我用过df printSchema 在 pyspark 中它为我提供了具有树结构的模式现在我需要将其保存在变量或文本文件中我尝试过以下保存方法但没有成功 v str df printSchema print v and df pri

如何将 printSchema 的结果保存到 PySpark 中的文件中

如何将 printSchema 的结果保存到 PySpark 中的文件中 的相关文章

随机推荐

热门标签

如何将 printSchema 的结果保存到 PySpark 中的文件中的相关文章