Spark 2.4 的 lineSep 选项

2023-12-06

Is lineSep该选项确实适用于 Spark 2.4 版本。

lineSep (default covers all \r, \r\n and \n): defines the line separator that should be used for parsing. Maximum length is 1 character.

我正在将 Dataframe 写入 GCS 存储桶位置，但它总是使用行分隔符将其写入为'\n' only.

df
  .select("COLLECTTIME","SITE","NETWORK")
  .coalesce(1)
  .limit(10)
  .write
  .option("header", false)
  .option("compression", "gzip")
  .option("lineSep","\r\n")
  .csv(tmpOutput)

我在寻找CRLF在每行的末尾。

我也在下面尝试过，但没有成功

df2.withColumn(df2.columns.last,concat(col(df2.columns.last),lit("\r")))
  .write
  .option("header", false)
  .option("compression", "gzip")
  .csv(tmpOutput)

我也在下面尝试过，但没有运气。

import org.apache.spark.sql.functions._
df2.withColumn(df2.columns.last,regexp_replace(col(df2.columns.last),"[\\r]","[\\r\\n]"))
  .write
  .option("header", false)
  .option("compression", "gzip")
  .csv(tmpOutput)

现在我想再次读取文件GCS一旦写入并逐行读取它并在每个记录的末尾附加“\r”。不是简短而简单的东西Spark 2.4。我只需要有'CRLF'在每条记录的末尾。

读取和更新也是不可能的，因为存储在 gcs 存储桶上的对象是不可变的。我无法将文件保留在缓冲区中，因为它们的大小也稍大一些

我很抱歉，但是 AFAIK，恐怕 Spark 允许您在问题中引用的不同分隔符：

lineSep (default covers all \r, \r\n and \n): defines the line separator that should be used for parsing. Maximum length is 1 character.

只适合阅读，不适合写作；在后一种情况下，要么\n是硬编码的，或者从 Spark 版本开始2.4 and 3.0，您可以选择自定义行分隔符，但仅限于单个字符。

请考虑阅读这个 Github 问题，它提供了问题的整个背景。这另外一个也可能有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

googlecloudplatform

googlecloudstorage

Spark 2.4 的 lineSep 选项的相关文章

发送 FakeRequest 时如何为 akka.stream.Materializer 提供隐式值？

我正在尝试理解下面看到的错误并学习如何修复它 could not find implicit value for parameter materializer akka Stream Materializer val fut Future
这是一种在 Akka FSM 中内部监视到第一个状态的转换的方法吗？

考虑从状态 Idle 开始的 FSM actor startWith Idle IdleData 我想监视到第一个状态的转换从无状态 I tried onTransition case gt Idle gt Wasn t called 根
在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
出现意外的关键字参数“timeout”（Python 中的 google-cloud-storage）

使用 google cloud storage 的 Python 项目在本地运行良好但是当它从 App Engine 运行时会显示错误 Traceback most recent call last File opt python3 7
隐式类中的 Scala 按名称调用构造函数参数

下面的代码不编译期望的是在隐式类中有一个按名称调用构造函数参数如下所示 def f n Int 1 to n product implicit class RichElapsed A val f gt A extends AnyVal
以编程方式启用 Vertex AI Managed Notebook 实例中已安装的扩展

我在托管笔记本实例中的 JupyterLab 中工作通过 Vertex AI 工作台访问作为 Google Cloud 项目的一部分创建实例时默认安装许多 JupyterLab 扩展在 Web GUI 中可以单击拼图图标然后单
如何将 Google Cloud Storage 中的许多文件设为私有？

我进行了很多研究但无法为此提出解决方案以下是我用来在 GCP 中公开所有文件的代码 def make blob public bucket name blob name Makes a blob publicly accessible
尝试使用 REST API 公开对象时出现“访问被拒绝。提供的范围未经授权”错误

我正在尝试对 Google Cloud Storage 存储桶中的各个对象设置权限以使它们可公开查看如下Google 文档中指示的步骤 https cloud google com storage docs access control
Scala 宏 - 使用“c.prefix”推断隐式值

c inferImplicitValue推断调用站点范围中的隐式值是否可以使用推断隐式c prefix scope 这不是有效的代码但表达了我需要的内容 c prefix inferImplicitValue 我目前正在使用一个简单的实
如何在平面级别将 JsValue 合并到 JsObject

我有两个从案例类创建的 JsValue 即书籍和书籍详细信息 val bookJson Json tojson Book val bookDetailJson Json tojson BookDetail 格式为 Book id 1 nam
如何使用 Scala 2.11 和 sbt 0.13 运行 Cucumber？

有人有使用 sbt 0 13 和 Scala 2 11 的 Cucumber 项目的示例吗我需要两者吗cucumber scala 2 11和sbt cucumber plugin 0 8 0 该插件是最新的吗插件现在去哪里了哪里做
将 Apache Flink 与 Lagom 结合使用时出现 java.io.NotSerializedException

我正在 Lagom 的微服务实现中编写 Flink CEP 程序我的 FLINK CEP 程序在简单的 scala 应用程序中运行得非常好但是当我在 Lagom 服务实现中使用此代码时我收到以下异常拉戈姆服务实施 override
为什么类型级计算需要 Aux 技术？

我很确定我在这里遗漏了一些东西因为我对 Shapeless 还很陌生并且我正在学习但是 Aux 技术实际上是什么时候required 我看到它是用来暴露type通过将其提升为另一个同伴的签名来声明type定义 trait F A t
iOS 将文件上传到 Google Cloud Storage - 收到 401：“需要登录”

我无法弄清楚如何将文件上传到 Cloud Storage 的公共访问存储桶我已经设置了一个存储桶并将其 ACL 设置为对所有用户进行读取和写入我已启用 Cloud Storage JSON API 和 Cloud Storage API
e:B, f:(B,A)=>B) : B 是什么意思

我对这意味着什么感到困惑我理解柯里化但我似乎无法完全阅读代码 def foldLeft A B xs List A e B f B A gt B B 只是几个建议顺便说一句里面没有柯里化 def foldLeft A B xs Li
Scala Monad - 完整的示例[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
当 num-nodes 设置为 2 时，GCP Kubernetes 创建了 6 个节点

我正在按照本教程在 GCP 上配置 Kubernetes https cloud google com kubernetes engine docs tutorials hello app clean up https cloud goog
如何在 AWS S3 中保存和使用 Spark History Server 日志

我想在AWS S3中记录和查看Spark历史服务器的事件日志以下是spark defaults conf中记录的属性 spark hadoop fs s3a impl org apache hadoop fs s3a S3AFileSys
Docker 在 Powershell 中登录 gcr.io

我正在尝试使用 Windows 10 登录 Google 容器注册表JSON 密钥文件 https cloud google com container registry docs advanced authentication using
无法使用 Python 3 编写的 gzip.open() 将压缩文件上传到云存储

当我尝试在 Cloud Shell 实例上使用 python 脚本将压缩的 gzip 文件上传到云存储时它总是上传一个空文件这是重现错误的代码 import gzip from google cloud import storage s

随机推荐

Angular 不发送 Cookie

我的角度11 http localhost 4200 现在正在与我的节点 API 服务器 http localhost 3000 通信 API 服务器在 cookie 中发回 sessionID 但后续浏览器对 API 的请求不会附带 co
Java内部类和静态嵌套类

Java 中内部类和静态嵌套类的主要区别是什么设计实施在选择其中之一时发挥作用吗来自Java教程嵌套类分为两类静态类和非静态类声明为静态的嵌套类简称为静态嵌套类非静态嵌套类称为内部类使用封闭类名访问静态嵌套类 OuterCl
如何使用服务器端加密将spark rdd写入S3

我正在尝试使用服务器端加密将 RDD 写入 S3 中以下是我的一段代码 val sparkConf new SparkConf setMaster local setAppName aws encryption val sc new Sp
Gulp - 按文件夹编译sass，并修改父目录

我是 gulpfile 的新手我不知道如何使用单个任务迭代多个文件夹我的 src 文件夹结构 folder1 assets style scss folder2 assets style scss folder3 subfolder1
asp mvc 列出具有动态变化规格的电子商务产品

我正在尝试为电子商务网站开发产品详细信息页面假设我们在视图中列出一些产品现在当用户单击产品时他会进入产品详细信息视图以显示产品规格包括添加到购物车评论等但这里是产品每个产品的规格都会动态变化 example 服装产品 Size
使用python读取middlebury'flow'文件（字节数组和numpy）

我正在尝试将 flo 文件读取为 numpy 2Channels 图像格式描述如下 flo file format used for optical flow evaluation Stores 2 band float image fo
为什么 java 中的操作赋值运算符类型不安全？

我不确定这个问题是否表述清楚但举个例子会更清楚我发现这在 Java 中不起作用 int a a 5 0 但这将 int a a 5 0 即看起来运算符是类型安全的但不是这是否有任何深层原因或者这只是语言设计者必须做出的另一个
libGdx 如何使用图像或演员作为主体

我浏览了 libGdx wiki 教程但没有找到使用图像或演员作为物理体的示例在我的游戏中我在舞台上添加了一名演员但我想添加这个演员或精灵图像作为物理体我必须拖动这个演员甚至想要检测与其他物体的碰撞如果有请给我参考 Thank
修改shell脚本来监控/ping多个ip地址

好吧所以我需要不断监控多个路由器和计算机以确保它们保持在线我找到了一个很棒的剧本here如果无法 ping 通单个 IP 它将通过咆哮通知我这样我就可以在手机上收到即时通知我一直在尝试修改脚本以 ping 多个地址但运气不佳当
执行从 Xib 到 ViewController 的 segue

我有一个带有按钮的 Xib 文件单击按钮时我想转到另一个视图控制器我已经在 StoryBoard 中的视图控制器之间创建了一个 Segue 并创建了一个标识符但似乎无法以编程方式调用它 IBAction func buttonActi
Log4j |更新Appender的日志级别

我的 log4j properties 文件 log4j rootLogger INFO stdout console output appender log4j appender stdout org apache log4j Conso
pandas“DataFrame”对象没有属性“map”

我有两个 df df a 和 df b df a number cur code 1000 USD 700 2000 USD 800 3000 USD 900 df b number amount deletion code 1000 0
在链接器方法之外将元素的文本存储在 Cypress 中

如何存储 div 的文本值一次并在整个 cypress 测试中使用它到目前为止我已经通过将大部分测试逻辑嵌套在调用中来做到这一点then方法但这看起来并不优雅或理想 cy get div then div gt let storedV
如何将文件缓冲区转换为标签 src？

我正在开发一个应用程序使用 Node js 作为后端并作为我的前端进行反应现在我创建了一个上传文件并将其作为缓冲区类型存储在 mongodb 中的路由我的问题是当我在 React 应用程序中收到这些数据时如何使用这些数据将其转换
AVPlayer 无法从本地文件播放 m3u8

我正在尝试让 AVPlayer 播放本地文件的 m3u8 播放列表我使用 Apple 的示例播放列表之一将其范围缩小为一个简单的测试用例 https tungsten aaplimg com VOD bipbop adv fmp4 exa
创建实体框架模型时忽略数据库默认值

假设我的数据库中有下表 CREATE TABLE dbo Test Id INT IDENTITY 1 1 NOT NULL Active BIT DEFAULT 1 NOT NULL When creating an EF model f
学习汇编-echo程序名

我正在尝试用汇编语言编写一个简单的程序来写出程序的名称使用 gdb 进行调试我确定对 sys write 的调用返回 14 EFAULT 我还能够验证我的 strlen 函数是否正常工作似乎存在某种内存访问问题但考虑到 strlen
如何让我的 kubernetes 获取最新的 docker 镜像？ [复制]

这个问题在这里已经有答案了 Problem Slack 和 Stack Overflow 上出现的一个常见问题是当镜像标签未更改但底层镜像已更改时如何触发 Deployment RS RC 的更新考虑存在一个带有映像 foo lat
如何将发件人地址设置为其他gmail中的任何电子邮件（通过Gmail在.NET中发送电子邮件）？

在这篇文章中通过 Gmail 在 NET 中发送电子邮件我们有一个通过gmail发送电子邮件的代码在发送邮件中我们从字段中找到包含我使用的gmail帐户我使用相同的代码但通过将发件人地址更改为我想要的任何电子邮件并在凭据中设置 gma
Spark 2.4 的 lineSep 选项

Is lineSep该选项确实适用于 Spark 2 4 版本 lineSep default covers all r r n and n defines the line separator that should be used fo

Spark 2.4 的 lineSep 选项

Spark 2.4 的 lineSep 选项 的相关文章

随机推荐

热门标签

Spark 2.4 的 lineSep 选项的相关文章