将 Spark 数据帧导出到带有标题和特定文件名的 .csv

2024-02-02

我正在尝试将数据从 Spark 数据帧导出到 .csv 文件：

df.coalesce(1)\
  .write\
  .format("com.databricks.spark.csv")\
  .option("header", "true")\
  .save(output_path)

它正在创建一个文件名“part-r-00001-512872f2-9b51-46c5-b0ee-31d626063571.csv”

我希望文件名是“part-r-00000.csv”或“part-00000.csv”

由于该文件是在 AWS S3 上创建的，因此我使用 os.system 命令的方式受到限制。

如何在保留文件头的同时设置文件名？

Thanks!

好吧，虽然我的问题的评分为 -3，但我在这里发布了帮助我解决问题的解决方案。我作为一名技术人员，总是更关心代码/逻辑而不是研究语法。至少对我来说，应该有一个小的背景来理解这个问题。

来到解决方案：

当我们从 Spark 数据帧创建 .csv 文件时，

输出文件默认命名为part-x-yyyyy，其中：

1) x 是“m”或“r”，具体取决于作业是仅映射作业还是缩减作业 2) yyyyy 是mapper 或reducer 任务号，可以是00000 也可以是随机数。

为了重命名输出文件，应该运行 os.system HDFS 命令。

import os, sys
output_path_stage = //set the source folder path here
output_path  = // set the target folder path here
//creating system command line
cmd2 = "hdfs dfs -mv " + output_path_stage + 'part-*' + '  ' + output_path + 'new_name.csv'
//executing system command
os.system(cmd2)

仅供参考，如果我们使用 rdd.saveAsTextFile 选项，则会创建没有标头的文件。如果我们使用coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").save(output_path)，使用随机的 x 部分名称创建文件。上述解决方案将帮助我们创建一个带有标题、分隔符以及所需文件名的 .csv 文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

exporttocsv

Databricks

将 Spark 数据帧导出到带有标题和特定文件名的 .csv 的相关文章

上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

如何在Azure DevOps Pipeline中设置和读取用户环境变量？

我有一些测试自动化代码可以从本地计算机上存储的环境变量中读取一些值如下所示 Environment GetEnvironmentVariable SAUCE USERNAME EnvironmentVariableTarget User
Spannable 的 Android 填充？

我使用此代码为 TextView 内的文本设置背景 s setSpan new BackgroundColorSpan getResources getColor R color selection blue prevIndex index
在 Java 中通过字符串形式的名称访问变量的值

我有一个包含变量名称的字符串我想获取该变量的值 int temp 10 String temp name temp 是否可以访问该值10通过使用temp name 我建议你使用Map
如何使用递归在二维数组中标记组？

我需要在代码中编写一个方法该方法可以采用二维数组并返回数组中有多少个不同的组一个群被定义为所有单元格在上下左右非对角线方向上直接连接到其他单元格其中数组中的单元格用星号表示我需要编写一个迭代整个数组的方法该方法还调用一
查找文件大小

在我的 iPhone 应用程序中我使用以下代码来查找文件的大小即使该文件存在我看到的大小为零谁能帮我提前致谢 NSArray paths NSSearchPathForDirectoriesInDomains NSDocument
如何在 Perl 中按键对哈希值进行排序？

我想对实际上具有哈希值的哈希进行排序例如 my hash1 field1 gt field2 gt count gt 0 my hash2 hash2 asd hash1 我插入了很多哈希值 hash2具有不同的计数值 hash2 我怎样
javascript中如何检查字符串是否是base32编码的

我需要检查 geohash 字符串是否有效因此我需要检查它是否是 base32 Base32 https en wikipedia org wiki Base32使用 A Z 和 2 7 进行编码并添加填充字符获取 8 个字符的倍数
声明一个类并声明一个同名的协议是怎么回事？

NSObject 类具有 NSObject 协议重点是什么这是某种模拟多重继承的方法吗这是什么图案不只是这样 Foundation 框架过于流行并且NSObject在根类方面占据主导地位这就是为什么人们习惯它的名字以及它实现的消
SSH“无法将主机添加到已知主机列表”Openshift

我尝试使用ssh命令连接到另一个远程主机 ssh p 21098 i OPENSHIFT DATA DIR ssh host key email protected cdn cgi l email protection The authen
jQuery 中的 $(form).submit 和 $(form).on("submit") 有什么区别？

我编写了以下代码这不会导致浏览器中出现 AJAX 调用 document ready function form submit function event event preventDefault var action this att
我可以关闭 HTML

我正在玩
pickle - 在一个文件中放置超过 1 个对象？ [复制]

这个问题在这里已经有答案了我有一种方法可以将许多腌制对象实际上是元组转储到文件中我不想将它们放入一个列表中我真的想多次转储到同一个文件中我的问题是如何再次加载对象第一个和第二个对象只有一行长因此这适用于读取行但其他的都更
在 Kotlin (Android) 中将文本资产（来自资产文件夹的文本文件）读取为字符串

我需要读取存储在的文本文件src main assets IE 在资产文件夹中并将其作为字符串获取有没有简单的方法可以做到 Java 的复制粘贴转换函数很麻烦所以我宁愿使用 kotlin 的方式我需要一种 kotlin 方式来做到
Backbone.js 基于url片段的状态管理/视图初始化

我正在尝试使用 Backbone js 跟踪此应用程序中的状态我有一个带有一组默认值的 ChartAppModel ChartAppModel Backbone Model extend defaults countries select
使用 @Input 装饰器访问传递的数据

我有一个看起来像这样的子组件子组件 Component selector child component TemplateUrl Styles and Providers export Class ChildComponent imple
离开页面时显示带有“onbeforeunload”的警告，除非单击“提交”

如果用户尝试离开包含未保存设置的页面我希望显示警告但如果他们尝试保存这些设置则显然不会我想我的理解是错误的因为我认为下面的内容应该有效但事实并非如此有人可以告诉我我做错了什么吗谢谢 input name Submit off
从控制台应用程序记录 SOAP 消息

我正在尝试将我开发的控制台应用程序和特定第三方远程 SOAP Web 服务之间的请求和响应原始 XML SOAP 信封记录到数据库以进行审计但我找不到方法来做到这一点理想情况下我想做的是收到请求
EventBus、注册和registerSticky方法

我使用 greenrobot EventBus 库在我的 android 应用程序中的两个片段之间发送数据我想知道两者之间有什么区别register Object b 方法和registerSticky Object object met
Couchbase 从范围内的所有集合中检索所有文档

是否可以在没有 N1QL 查询的情况下从某个范围内的所有集合中检索所有文档由于数据量巨大我们试图避免创建索引因此无法执行 N1QL 放置此类数据的集群是归档存储不会被频繁访问新的 KV 范围扫描功能将执行此操作 scan 方法 h
将 Spark 数据帧导出到带有标题和特定文件名的 .csv

我正在尝试将数据从 Spark 数据帧导出到 csv 文件 df coalesce 1 write format com databricks spark csv option header true save output path 它正

将 Spark 数据帧导出到带有标题和特定文件名的 .csv

将 Spark 数据帧导出到带有标题和特定文件名的 .csv 的相关文章

随机推荐

热门标签