如何编写标准 CSV

2023-11-29

读起来非常简单标准 CSV文件，例如：

 val t = spark.read.format("csv")
 .option("inferSchema", "true")
 .option("header", "true")
 .load("file:///home/xyz/user/t.csv")

它读取一个真正的 CSV 文件，例如

   fieldName1,fieldName2,fieldName3
   aaa,bbb,ccc
   zzz,yyy,xxx

and t.show产生了预期的结果。

我需要逆，写入标准 CSV 文件（不是非标准文件的目录）。

当没有看到相反的结果时，这是非常令人沮丧的write用来。也许有其他选择或某种format (" REAL csv please! ") exists.

NOTES

我正在使用 Sparkv2.2并运行测试火花壳.

的“语法逆”read is write，因此预计会产生相同的文件格式用它。但结果是

   t.write.format("csv").option("header", "true").save("file:///home/xyz/user/t-writed.csv")

不是 CSV 文件rfc4180标准格式，与原始格式相同t.csv, but a t-writed.csv/包含该文件的文件夹part-00000-66b020ca-2a16-41d9-ae0a-a6a8144c7dbc-c000.csv.deflate _SUCCESS这似乎是“镶木地板”、“ORC”或其他格式。

任何具有“读某物”的完整工具包的语言都能够“写某物”，它是一种正交原理.

类似的没有解决

类似的问题或链接没有解决问题，可能使用了不兼容的 Spark 版本，或者可能火花外壳使用它的限制。他们为专家提供了很好的线索：

This @JochemKuijpers 指出的类似问题：我尝试建议但得到同样丑陋的结果。
这个链接说有解决方案（！），但我无法复制/粘贴saveDfToCsv()在我的 Spark-Shell 中（“错误：未找到：类型 DataFrame”），有什么线索吗？

如果您使用 Spark 是因为您正在处理“大”* 数据集，那么您可能不想要类似的东西coalesce(1) or toPandas()因为这很可能会使你的驱动程序崩溃（因为整个数据集必须适合驱动程序 RAM，通常does not).

另一方面：如果你的数据does适合单台机器的 RAM - 为什么你要用分布式计算来折磨自己？

*定义有所不同。我个人的情况是“不适合Excel表格”。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

exporttocsv

如何编写标准 CSV 的相关文章

Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
Err_Response_Headers_Multiple_Content_Disposition

我需要导出 2csv单击一个按钮即可打开文件下面是我生成2的代码csv files using System Data using System Data SqlClient using System Text using System
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
如何使用 PowerShell 2 的导出 csv 附加文件？

filesremoved export csv Path E Code powershell logs filesremoved txt NoTypeInformation 我也尝试过 filesremoved export csv Pat
Spark 和 Scala 中的文本操作

这是我的数据 review text The product picture and part number match but they together do not math the description review text A
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
Spark LDA 困境 - 预测和 OOM 问题

我正在评估 Spark 1 6 0 来构建大型数百万个文档数百万个特征数千个主题 LDA 模型并进行预测这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始按照 Java 示例我使用分布式模型 EM 优化器构建了 10
在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
根据条件组合 Spark 数据帧列中的多行

我正在尝试根据条件组合 Spark 数据框中的多行这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起

随机推荐

Android静态方法可以很好地实时绘制后台线程数据，但这是一个好的解决方案吗？

我一直在问一系列关于我的 Android 项目的不断变化的问题该项目不断实时绘制蓝牙数据而且我在提问方面也做得不太好所以我需要做的是编辑这个问题清理它添加重要的细节最重要的是我需要添加相关代码部分的代码片段特别是我已经修改过很
广告拦截器会拦截 Ajax 调用响应 html

我正在页面上呈现一些统计信息因为这需要一些时间我在页面加载后将此请求作为 ajax 调用
限制插件汇编代码访问

我想创建一个插件架构在其中我可以将程序集 API 限制为非常受限制的内容即仅允许函数白名单是否可以限制插件程序集可以调用哪些函数方法我可以使用 AppDomains 来做到这一点吗有人有一个简单的例子吗 NET 添加了可能符合要
最小的 Android 小部件，从未收到 APPWIDGET_DELETED 和 APPWIDGET_DISABLED 意图

我遇到的问题与之前提出的问题非常相似但不完全相同参考 1 2 3 4 我编写了一个最小的 Android 小部件并且APPWIDGET DELETED and APPWIDGET DISABLED从未被收到在上面的参考文献1和2中
有了 ASP.NET 会员资格，我如何显示 403？

默认情况下当用户无权访问受保护页面时 ASP NET 的成员资格提供程序将重定向到 loginUrl 有没有办法在不重定向用户的情况下显示自定义 403 错误页面我想避免将用户发送到登录页面并在地址栏中显示 ReturnUrl 查询字符
根据url参数设置Cookie

每当用户点击我们的附属链接之一并登陆我们的 URL 中包含 src uni 的网站时我都需要设置一个 cookie URL 将如下所示创建cookie的函数 function SetCookie var url window locat
有哪些比 .gitignore 更有效的方法可以将文件保留在存储库之外？

我的开发团队中的人员不断推送特定于构建的文件文件夹节点模块和其他到我们的存储库中尽管这些文件位于 gitignore文件大概是git add all f或与之相关的东西这是一种巨大的痛苦而且事实证明让人们停止这样做很困难有什么
IdentityServer4反向通道注销问题

在 ASP NET Core 2 上使用 IdentityServer4 使用 ASP NET MVC5 与此用例相关的两个客户端编辑使用cookie进行身份验证隐式流程使用反向通道注销如下所示涉及 4 个应用程序两个客户端
如何在 Zend Framework 2 应用程序中模块的 getConfig() 中使用 global.php/local.php 配置？

在 ZF2 应用程序中我有一些配置即 1 需要根据环境而有所不同 2 特定于具体模块我目前正在使用它here描述全局 php 和本地 php return array modules gt array Cache gt array
Swift：触发 TableViewCell 导致另一个 ViewController 中 UIWebView 中的链接

当我点击一个tableViewCell我想要一个链接特定于该单元格的indexPath row 在带有 webView 的新 viewController 中打开示例我点击了第三个单元格tableViewwww apple com 将
如何在iOS中制作其他语言的键盘

我想创建一个与 iPhone 键盘不同的高棉键盘我怎样才能做到这一点不幸的是您无法控制键盘的语言用户通过设置应用程序选择他们想要使用的键盘并可以使用键盘上的地球图标在它们之间切换打开键盘后它将打开最近使用的键盘
Feign 客户端 - 动态授权标头

我有一项服务可以获取带有授权标头的 http 请求在处理请求时我想使用 Feign Client 来查询另一个服务对其他服务的查询应包含相同的授权标头目前我使用 Filter 从传入请求中提取授权标头并将标头存储在 Thread
RxJS Observables 嵌套订阅？

有什么方法可以简化像下面的代码示例这样的事情我找不到合适的运营商有人可以举一个简短的例子吗 this returnsObservable1 subscribe success gt this returnsObservable2 sub
SonarQube 和 BitBucket 在 Pull 请求上集成

我是 BitBucket 的新手继承了一个项目现在正在尝试加快速度并完成代码我们有一个 DevSecOps 管道使用 BitBucket 作为 SCM SonarQube 作为静态分析引擎以及 Maven 或 Jenkins 具体取
指南是否保证是唯一的？

我使用 Guid 作为数据库中的主键想知道是否有可能生成重复的 Guid 指南是否保证是唯一的虽然不能保证每个生成的 GUID 都是唯一的但唯一键的总数 2 128 或 3 4 10 38 非常大因此相同数字生成两次的概率非常小例
错误：异步模块或处理程序已完成，而异步操作仍处于挂起状态

我有一个控制器操作方法来保存用户详细信息如下所示 public async Task
如何从sklearn管道变压器中提取特征名称？

以供参考 Python 3 8 3 sklearn 1 0 2 我有一个scikit learn pipeline为我格式化一些数据如下所述我定义我的pipeline像这样 Pipeline 1 cat selector make co
Cassandra 性能随时间更新行

我正在尝试确定 Cassandra 是否适合我的应用程序因为未知我们将来需要扩展多少并且可能会迅速发生我一直在观看 2013 年 C 峰会的各个部分具体来说 Axel Liljencrantz Spotify 的后端开发人员在这里说
使用 ASP.NET Core 将 PDF 返回到浏览器

我在 ASP Net core 中创建了 Web API 以返回 PDF 这是我的代码 public HttpResponseMessage Get int id var response new HttpResponseMessage S
如何编写标准 CSV

读起来非常简单标准 CSV文件例如 val t spark read format csv option inferSchema true option header true load file home xyz user t csv

热门标签