使用spark-csv写入单个CSV文件

2023-12-09

我在用https://github.com/databricks/spark-csv，我试图编写一个 CSV，但无法，它正在创建一个文件夹。

需要一个 Scala 函数，它将接受路径和文件名等参数并写入该 CSV 文件。

它正在创建一个包含多个文件的文件夹，因为每个分区都是单独保存的。如果您需要单个输出文件（仍在文件夹中），您可以repartition（如果上游数据很大，但需要洗牌，则首选）：

df
   .repartition(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

or coalesce:

df
   .coalesce(1)
   .write.format("com.databricks.spark.csv")
   .option("header", "true")
   .save("mydata.csv")

保存前的数据框：

所有数据将被写入mydata.csv/part-00000。使用此选项之前确保您了解正在发生的情况以及将所有数据传输到单个工作人员的成本是多少。如果您使用具有复制功能的分布式文件系统，数据将被多次传输 - 首先获取到单个工作线程，然后分布到存储节点上。

或者，您可以保留代码不变并使用通用工具，例如cat or HDFS getmerge之后简单地合并所有部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

csv

apachespark

sparkcsv

使用spark-csv写入单个CSV文件的相关文章

Scala SBT 版本依赖性二进制兼容性错误 scala-xml

我有一个在 GitHub 上托管的项目我使用 scala steward 来保持我的插件和依赖项最新这在一段时间内有效但现在使用此类自动更新却变成了一场噩梦事情是这样的在我的plugins sbt中我依赖于scoverage 它
Scala：如何定义带有变量参数列表的匿名函数？

在 Scala 中如何定义接受可变数量参数的匿名函数 scala gt def foo blah Int gt 3
用于读取csv写入数组的c++程序；然后操作并打印到文本文件中（已经用 matlab 编写）

我想知道是否有人可以帮助我我正在尝试构建一个程序从 csv 文件中读取大小未知的浮点数大数据块我已经在 MATLAB 中编写了此代码但想要编译和分发此代码因此转向 C 我只是在学习并尝试阅读本文以开始 7 5 19892 4 23
scala.concurrent.blocking - 它实际上做了什么？

我花了一段时间学习 Scala 执行上下文底层线程模型和并发性的主题你能解释一下通过什么方式吗scala concurrent blocking 调整运行时行为 and 可以提高性能或避免死锁如中所述scaladoc http www
如何通过 Scala REPL 使用第三方库？

我已经下载了Algebird我想尝试一些事情Scala 解释器使用这个库我该如何实现这一目标当然您可以使用 scala cp 无论如何并手动管理您的依赖项但这变得非常乏味尤其是当您有多个依赖项时更灵活的方法是使用sbt http
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
PowerShell 解锁/卸载导入的 CSV

早晨我想问题就在标题里我有一个脚本它通过导入 CSV 的文件夹结构运行与每个脚本一起工作然后在完成后尝试删除它们遗憾的是其中很多都锁定在 PowerShell 上而我删除它们的唯一方法就是关闭 PS 有什么方法可以卸载csv
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
Play框架：读取包含空值的Json

我正在尝试在 Play Scala 程序中读取 Json 数据 Json 的某些字段可能包含空值因此我定义 Reads 对象的方式如下 implicit val readObj Reads ApplyRequest JsPath a re
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
使用无形类型不等式时如何自定义 Scala 模糊隐式错误

def typeSafeSum T lt Nat W lt Nat R lt Nat x T y W implicit sum Sum Aux T W R error R 7 x typeSafeSum 3 4 compilation er
Papa Parse 在本地读取 CSV

有人可以指出或向我展示 Papa Parse 读取 csv 文件的工作示例吗当我尝试使用时 Papa parse file complete function results console log Finished results da
如何在 akka actor 中测试公共方法？

我有一个 akka 演员 class MyActor extends Actor def recieve def getCount id String Int do a lot of stuff proccess id do more st
使用 IFS bash 进行 CSV 解析：选择“;”作为分隔符

我有一个包含 130 列的 CSV 我需要用它来做 3 个 csv 我用 while 和 IFS 循环因为我需要对每一行的变量进行一些处理这是我所做的 while IFS read my 130 vars what i do with
Scala 中缺少多重集吗？

我正在尝试 Scala 中的 Facebook Hacker Cup 2013 资格赛问题对于第三个问题我觉得需要一个有序的 Multiset 但在 scala 的 2 10 集合中找不到一个 scala 的集合中是否缺少此数据结构会
ruby CSV重复行解析

我有一些需要处理的 CSV 数据但无法找到匹配重复项的方法数据看起来有点像这样 line id name item 1 item 2 item 3 item 4 1 251 john foo foo foo foo 2 251 john
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
将 CSV 复制到 Amazon RDS 托管的 Postgresql 数据库

我有一个使用 Amazon 的 RDS 服务托管的数据库我正在尝试编写一个 Web 服务来更新所述数据库我遇到的问题是它不允许我使用 COPY 命令因为我收到此错误错误必须是超级用户才能复制到文件或从文件复制我正在使用我为数据库

随机推荐

忽略更新函数 Laravel 5 的唯一验证

我有这个customer当您创建时的模型具有独特的phone num 它在创建中工作得很好但在我的更新功能中工作得很好这是一个基于自动填充值的表单id 如果用户只更新了address正如预期的unique验证将再次触发说The phon
如何在 iOS 中同时播放两个音频文件

我正在开发一个带有声音文件的应用程序在此应用程序中有一个滑块实现根据滑块比率将处理所有文件以设置音量但有了这种音量效果假设有字段 A 和 B 的声音集就会有两组不同文件的声音组合将有 A 文件的 75 和 B 文件的 25
不返回 python 正则表达式中的整个模式

我有以下代码 haystack aaa months 3 bbb needle re compile r months days d instances list set needle findall haystack print str
查找 DOM 节点索引

我想找到给定 DOM 节点的索引这就像做的相反 document getElementById id of element childNodes K 我想提取的值K鉴于我已经有了对子节点和父节点的引用我该怎么做呢在所有版本的 Safa
iPhone - NSWeekCalendarUnit 和 NSWeekdayCalendarUnit 之间有什么区别？

我试图使用这些值设置 UILocalNotification 的重复间隔但一如既往 Apple 文档非常模糊有什么线索吗 thanks 也许看看我刚刚发现的这个博客关于主题 AFAIK NSCalendarUnits主要用于将日期或时间
使用模型描述中的标题属性创建 CheckboxFor MVC 帮助程序

我创建了一个文本框助手来添加取自模型中字段的描述属性的标题工具提示 public static MvcHtmlString TextBoxForWithTitle
EPPlus 日期单元格数据类型不起作用

我有一些代码接受 IEnumerable 并从中生成 Excel 文档 IEnumerable 中的对象有一个日期字段我希望将它们格式化为 Excel 中的日期但是当您在 Excel 中查看时日期似乎不是日期数据类型直到您双击
带 GDI 的黑色高亮条

我为我的 GUI 提供了一些不错的分割器代码但我无法获得笔画笔无论我需要做适当的突出显示是什么您知道在 Visual Studio 10 中如何拖动分割条并且有一个漂亮的黑色透明条让您知道当您抬起鼠标按钮时分割将发生在哪里这是一
WooCommerce 客户帐单地址

我正在尝试将增值税字段添加到客户账单地址而这可以在结账页面上使用以下代码 Company Name Required add filter woocommerce checkout fields custom override check
龙卷风协程函数中的变量会发生什么情况？

我对非阻塞 IO 的概念很陌生并且有一些事情我无法理解关于协程考虑这段代码 class UserPostHandler RequestHandler gen coroutine def get self var some variab
如何在用户按下按钮或图像后显示 Google Picker API 对话框？

有 HTML 专家可以帮助我吗我想展示Google 选择器 API 对话框用户单击按钮或图像后我想随后在页面上显示结果对于知道如何进行 Web 编程的开发人员来说这应该很简单如何使用的示例代码位于上面的链接中十分感谢现在我自己
PHP: $i = $i++ 导致服务器崩溃

几年前在我知道 SO 之前这件事就发生在我身上但我仍然很好奇当我还在学习PHP基础知识时我不小心输入了 i i 当我在浏览器中测试网页时服务器崩溃了花了很长时间才恢复我之前输入过一些非常愚蠢的东西并创建了一堆无限循环但出于
为 scipy.optimize.fmin （和其他）设置收敛标准

我正在开展一项优化任务其中成本函数评估非常昂贵并且可以容忍一些错误我正在使用 scipy optimize 中的一些预先打包的 scipy 方法来开始我合作的第一个是fmin 它实现了 nelder mead 单纯形算法该函数有两
如何在 Tomcat 中对多个错误代码使用相同的错误页面？

我正在尝试从 tomcat servlet 发送纯文本错误消息以便应用程序可以将响应呈现给用户我的 web xml 中有以下内容
在 LINQ to SQL 中使用 contains()

我正在尝试使用 linq to sql 在应用程序中实现非常基本的关键字搜索我的搜索词位于一个字符串数组中每个数组项都是一个单词我想找到包含搜索词的行我不介意它们是否不仅仅包含搜索词很可能会但所有搜索词都必须存在理想情况下我
razor 页面上自定义验证属性的 ASP.NET Core 客户端验证

目前这就是我的模型类的样子具有自定义验证属性客户端 cs Required DisplayName Bookkeeping public bool Bookkeeping get set Required DisplayName Pe
使用谷歌应用程序脚本按日期过滤数组

我有一个谷歌电子表格它是一个 2 列表格其中 A 列日期我确定是日期并且所有日期函数在所有列上都可以正常工作和 B 列文本通过谷歌应用程序脚本我获得了范围内的所有值 var sheet SpreadsheetApp openB
Plotly 分散 3D 相机，减少空白

我正在绘制 3d 散点图spyderIDE 并且运行良好除此之外我试图将特定的相机视图保存为 png 格式这就是我遇到问题的地方本文 https nbviewer org github etpinard plotly misc nb
在matplotlib散点图中绘制从x=0到数据点的水平线（水平茎图）

考虑以下情节由该函数产生 def timeDiffPlot dataA dataB saveto None leg None labels list dataA graph figure figsize screenMedium ax g
使用spark-csv写入单个CSV文件

我在用https github com databricks spark csv 我试图编写一个 CSV 但无法它正在创建一个文件夹需要一个 Scala 函数它将接受路径和文件名等参数并写入该 CSV 文件它正在创建一个包含多个文件

使用spark-csv写入单个CSV文件

使用spark-csv写入单个CSV文件 的相关文章

随机推荐

热门标签

使用spark-csv写入单个CSV文件的相关文章