使用spark-csv写入单个CSV文件

2023-12-09

我在用https://github.com/databricks/spark-csv,我试图编写一个 CSV,但无法,它正在创建一个文件夹。

需要一个 Scala 函数,它将接受路径和文件名等参数并写入该 CSV 文件。


它正在创建一个包含多个文件的文件夹,因为每个分区都是单独保存的。如果您需要单个输出文件(仍在文件夹中),您可以repartition(如果上游数据很大,但需要洗牌,则首选):

df
   .repartition(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

or coalesce:

df
   .coalesce(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

保存前的数据框:

所有数据将被写入mydata.csv/part-00000。使用此选项之前确保您了解正在发生的情况以及将所有数据传输到单个工作人员的成本是多少。如果您使用具有复制功能的分布式文件系统,数据将被多次传输 - 首先获取到单个工作线程,然后分布到存储节点上。

或者,您可以保留代码不变并使用通用工具,例如cat or HDFS getmerge之后简单地合并所有部分。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用spark-csv写入单个CSV文件 的相关文章

随机推荐

  • 忽略更新函数 Laravel 5 的唯一验证

    我有这个customer当您创建时的模型具有独特的phone num 它在创建中工作得很好 但在我的更新功能中工作得很好 这是一个基于自动填充值的表单id 如果用户只更新了address正如预期的unique验证将再次触发说The phon
  • 如何在 iOS 中同时播放两个音频文件

    我正在开发一个带有声音文件的应用程序 在此应用程序中 有一个滑块实现 根据滑块比率 将处理所有文件以设置音量 但有了这种音量效果 假设有字段 A 和 B 的声音集 就会有两组不同文件的声音组合 将有 A 文件的 75 和 B 文件的 25
  • 不返回 python 正则表达式中的整个模式

    我有以下代码 haystack aaa months 3 bbb needle re compile r months days d instances list set needle findall haystack print str
  • 查找 DOM 节点索引

    我想找到给定 DOM 节点的索引 这就像做的相反 document getElementById id of element childNodes K 我想提取的值K鉴于我已经有了对子节点和父节点的引用 我该怎么做呢 在所有版本的 Safa
  • iPhone - NSWeekCalendarUnit 和 NSWeekdayCalendarUnit 之间有什么区别?

    我试图使用这些值设置 UILocalNotification 的重复间隔 但一如既往 Apple 文档非常模糊 有什么线索吗 thanks 也许看看我刚刚发现的这个博客关于主题 AFAIK NSCalendarUnits主要用于将日期或时间
  • 使用模型描述中的标题属性创建 CheckboxFor MVC 帮助程序

    我创建了一个文本框助手来添加取自模型中字段的描述属性的标题 工具提示 public static MvcHtmlString TextBoxForWithTitle
  • EPPlus 日期单元格数据类型不起作用

    我有一些代码接受 IEnumerable 并从中生成 Excel 文档 IEnumerable 中的对象有一个日期字段 我希望将它们格式化为 Excel 中的日期 但是 当您在 Excel 中查看时 日期似乎不是 日期 数据类型 直到您双击
  • 带 GDI 的黑色高亮条

    我为我的 GUI 提供了一些不错的分割器代码 但我无法获得笔 画笔 无论我需要做适当的突出显示是什么 您知道在 Visual Studio 10 中如何拖动分割条 并且有一个漂亮的黑色透明条让您知道当您抬起鼠标按钮时分割将发生在哪里 这是一
  • WooCommerce 客户帐单地址

    我正在尝试将增值税字段添加到客户账单地址 而这可以在结账页面上使用以下代码 Company Name Required add filter woocommerce checkout fields custom override check
  • 龙卷风协程函数中的变量会发生什么情况?

    我对非阻塞 IO 的概念很陌生 并且有一些事情我无法理解 关于协程 考虑这段代码 class UserPostHandler RequestHandler gen coroutine def get self var some variab
  • 如何在用户按下按钮或图像后显示 Google Picker API 对话框?

    有 HTML 专家可以帮助我吗 我想展示Google 选择器 API 对话框用户单击按钮或图像后 我想随后在页面上显示结果 对于知道如何进行 Web 编程的开发人员来说 这应该很简单 如何使用的示例代码位于上面的链接中 十分感谢 现在我自己
  • PHP: $i = $i++ 导致服务器崩溃

    几年前 在我知道 SO 之前 这件事就发生在我身上 但我仍然很好奇 当我还在学习PHP基础知识时 我不小心输入了 i i 当我在浏览器中测试网页时 服务器崩溃了 花了很长时间才恢复 我之前输入过一些非常愚蠢的东西并创建了一堆无限循环 但出于
  • 为 scipy.optimize.fmin (和其他)设置收敛标准

    我正在开展一项优化任务 其中成本函数评估非常昂贵 并且可以容忍一些错误 我正在使用 scipy optimize 中的一些预先打包的 scipy 方法来开始 我合作的第一个是fmin 它实现了 nelder mead 单纯形算法 该函数有两
  • 如何在 Tomcat 中对多个错误代码使用相同的错误页面?

    我正在尝试从 tomcat servlet 发送纯文本错误消息 以便应用程序可以将响应呈现给用户 我的 web xml 中有以下内容
  • 在 LINQ to SQL 中使用 contains()

    我正在尝试使用 linq to sql 在应用程序中实现非常基本的关键字搜索 我的搜索词位于一个字符串数组中 每个数组项都是一个单词 我想找到包含搜索词的行 我不介意它们是否不仅仅包含搜索词 很可能会 但所有搜索词都必须存在 理想情况下 我
  • razor 页面上自定义验证属性的 ASP.NET Core 客户端验证

    目前 这就是我的模型类的样子 具有自定义验证属性 客户端 cs Required DisplayName Bookkeeping public bool Bookkeeping get set Required DisplayName Pe
  • 使用谷歌应用程序脚本按日期过滤数组

    我有一个谷歌电子表格 它是一个 2 列表格 其中 A 列日期 我确定是日期 并且所有日期函数在所有列上都可以正常工作 和 B 列文本 通过谷歌应用程序脚本 我获得了范围内的所有值 var sheet SpreadsheetApp openB
  • Plotly 分散 3D 相机,减少空白

    我正在绘制 3d 散点图spyderIDE 并且运行良好 除此之外 我试图将特定的相机视图保存为 png 格式 这就是我遇到问题的地方 本文 https nbviewer org github etpinard plotly misc nb
  • 在matplotlib散点图中绘制从x=0到数据点的水平线(水平茎图)

    考虑以下情节 由该函数产生 def timeDiffPlot dataA dataB saveto None leg None labels list dataA graph figure figsize screenMedium ax g
  • 使用spark-csv写入单个CSV文件

    我在用https github com databricks spark csv 我试图编写一个 CSV 但无法 它正在创建一个文件夹 需要一个 Scala 函数 它将接受路径和文件名等参数并写入该 CSV 文件 它正在创建一个包含多个文件