替换 csv 文件中的新行 (\n) 字符 - Spark scala

2023-11-24

为了说明问题，我采取了一个测试集 csv 文件。但在实际情况下，问题必须处理超过 TeraByte 的数据。

我有一个 CSV 文件，其中的列用引号括起来（“col1”）。但是当数据导入完成后。一列包含换行符 (\n)。当我想将它们保存为 Hive 表时，这给我带来了很多问题。

我的想法是用“|”替换\n字符管道中的火花。

到目前为止我取得了以下成就：

1. val test = sqlContext.load(
        "com.databricks.spark.csv",
        Map("path" -> "test_set.csv", "header" -> "true", "inferSchema" -> "true", "delimiter" -> "," , "quote" -> "\"", "escape" -> "\\" ,"parserLib" -> "univocity" ))#read a csv file

 2.   val dataframe = test.toDF() #convert to dataframe

  3.    dataframe.foreach(println) #print

    4. dataframe.map(row => {
        val row4 = row.getAs[String](4)
        val make = row4.replaceAll("[\r\n]", "|") 
        (make)
      }).collect().foreach(println) #replace not working for me

样本集：

(17 , D73 ,525, 1  ,testing\n    ,  90 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,526, 1  ,null         ,  89 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,529, 1  ,once \n again,  10 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,531, 1  ,test3\n      ,  10 ,20.07.2011 ,null ,F10 , R)

预期结果集：

(17 , D73 ,525, 1  ,testing|    ,  90 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,526, 1  ,null         ,  89 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,529, 1  ,once | again,  10 ,20.07.2011 ,null ,F10 , R)
 (17 , D73 ,531, 1  ,test3|      ,  10 ,20.07.2011 ,null ,F10 , R)

对我有用的：

val rep = "\n123\n Main Street\n".replaceAll("[\\r\\n]", "|") rep: String = |123| Main Street|

但为什么我不能在元组的基础上做呢？

 val dataRDD = lines_wo_header.map(line => line.split(";")).map(row => (row(0).toLong, row(1).toString, 
                                               row(2).toLong, row(3).toLong, 
                                               row(4).toString, row(5).toLong,
                                               row(6).toString, row(7).toString, row(8).toString,row(9).toString)) 

dataRDD.map(row => {
                val wert = row._5.replaceAll("[\\r\\n]", "|") 
                (row._1,row._2,row._3,row._4,wert,row._6, row._7,row._8,row._9,row._10)
                }).collect().foreach(println)

Spark——版本1.3.1

如果您可以使用 Spark SQL 1.5 或更高版本，您可以考虑使用功能可用于列。假设您不知道（或没有）列的名称，您可以按照以下代码片段执行操作：

val df = test.toDF()

import org.apache.spark.sql.functions._
val newDF = df.withColumn(df.columns(4), regexp_replace(col(df.columns(4)), "[\\r\\n]", "|"))

如果您知道列的名称，则可以替换df.columns(4)在这两次事件中都以它的名字命名。

我希望这有帮助。干杯。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

replace

apachespark

character

newline

替换 csv 文件中的新行 (\n) 字符 - Spark scala 的相关文章

Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
Scala：类型参数中的问号

我试图理解以下代码来自 Scalaz 库 def kleisliIdApplicative R Applicative Kleisli Id R 我假设一种形式T P0 是一个带有参数的类型构造函数但是我无法找到解释类型参数中问号用法的
如何关闭 Scala 中因方法重载而导致代码无法编译的特定隐式？

我正忙着尝试自己回答这个问题 Scala Play 2 4 x 通过 anorm MySQL 处理扩展字符到 Java Mail https stackoverflow com questions 31417718 scala play 2
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
Pure Bash 替换捕获组

我有这个示例字符串 test string 13A6 该字符数字可以是从 0 到 9 以及从 A 到 F 我想要这个输出 1 3 A 6 我有这个工作 result echo test string sed s g 我想在没有 sed 的
Scala 中的随机列表[重复]

这个问题在这里已经有答案了我对 scala 中的随机播放列表有疑问使用scala util Random 例如我有 val a cyan val b magenta val c yellow val d key val color Ra
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何调用 Scala 抽象类型的构造函数？

我试图弄清楚如何调用 Scala 抽象类型的构造函数 class Journey val length Int class PlaneJourney length Int extends Journey length class BoatJ
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
使用替换字符串中多个单词的最有效方法[重复]

这个问题在这里已经有答案了此刻我正在做 Example line replaceAll replaceAll cat dog replaceAll football rugby 我觉得那很丑不确定有更好的方法吗也许循环遍历哈希图 ED
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa

随机推荐

Python，多线程太慢，多进程

我是多处理新手我了解一些有关线程的知识但我需要提高计算速度希望通过多重处理示例说明将字符串发送到线程更改字符串基准测试将结果发回打印 from threading import Thread class Alter Thre
将多维Json数组解析为Python

我第一次尝试解析 JSON 并处理多维数组这让我不知所措 secret Hidden minutes 20 link http www 1 com bookmark collection free link name free link
在 Guice 中绑定，无需

我有个问题通常在Guice中我使用bind class to 另一个类实现但是我在代码源中发现他们仅使用了bind class 没有 to another class Implementation 部分这是什么意思 bind clas
如何用关系代数求 MAX？

使用数据库时如何使用关系代数求 MAX 假设您有一个关系 A 具有单个属性 a 减少一个更复杂的关系是关系代数中的一个简单任务我确信您已经做到了这一点所以现在您想要找到最大值A 中的值一种方法是找到 A 与其自身的叉积请务必重命名
从定期异步请求创建 observable

我想要一种将异步方法转换为可观察方法的通用方法就我而言我正在处理使用的方法HttpClient从 API 获取数据假设我们有方法Task
为什么在 Ruby 中应该避免使用 then 关键字？

一些 Ruby 风格指南中提到您应该永远不要使用就我个人而言我认为 then 关键字可以使代码更密集这往往更难阅读这个建议还有其他理由吗我几乎从不使用then关键词然而有一种情况我认为它极大地提高了可读性考虑以下多条件
除了 new object() 之外，还有什么理由要锁定其他东西吗？

object theLock new object lock theLock 我总是用一个new object 为此但我想知道是否有任何情况下您会锁定更具体的类型在我看来任何引用类型都可以被锁定使用虚拟对象的原因是为了避免常见的锁
Angular2 - 如何使用具有动态 url 的路由器

假设我有一个嵌套的 itemListComponent 它是 rootComponent 的子组件使用以下模板 span a item title a span 由 Json 服务提供的路径 item url 可能具有以下路径结构之一 c
将解决方案应用于实际数据时结果不正确

我尝试将此问题中提供的解决方案应用于我的真实数据选择多索引数据框中的行不知怎的我无法得到它应该给出的结果我已附上可供选择的数据框以及结果我需要的应返回第 3 11 和 12 行当您连续添加 4 列时也应选择 12 现在不是
Heroku 可以使用哪些级别的日志记录？

我有一个在 Heroku 上运行的 Rails 应用程序它运行良好我让它以调试级别日志记录运行但现在我切换回 INFO 还有哪些其他级别的调试可用当运行生产时我应该使用什么级别的日志记录在 Heroku 上您可以使用 LOG
为什么我无法运行我的 Node.js Express Web 应用程序

Node js 和 Express 生成器确实非常方便且易于理解但是我无法通过运行 c my application root gt DEBUG my application bin www 来启动我的服务器 Windows 似乎不理解
找不到 matplotlib 数据文件

我是 python 新手我正在尝试使用 pyinstaller 从 py 脚本创建 exe 但在尝试运行 exe 时出现此错误无法找到 matplotlib 数据文件当我在 python 空闲中运行脚本时我没有收到此错误我试过了
Eclipse CDT Indexer 不能完全识别 c++11

首先我了解用于启用 c 11 支持的 std c 11 标志及其放置位置我已附加 std c 11 to Project gt Properties gt C C Build gt Settings gt Tool Settings g
Internet Explorer-10 websocket 中的 IPv6 地址给出语法错误

我从服务器获取 ipv6 地址然后我为 websocket 创建 url 我的网址看起来喜欢 ws xxxx xxxx xxxx xxxx xxxx xxxx 十进制端口其中 x 十六进制的 0 f 这个网址在 chrome 和 fi
$_SERVER["REMOTE_ADDR"] 提供服务器 IP 而不是访问者 IP

我正在尝试跟踪访问者的 IP 地址使用时 SERVER REMOTE ADDR 我得到的是服务器的IP地址而不是访问者的IP地址我在多个位置的多台机器上进行了尝试它们都产生了完全相同的 IP 是否有一些 PHP 服务器设置可能会影响这
Ruby 中的有符号和无符号整数

像 C 一样 Ruby 是否有有符号和无符号整数如果有的话是否意味着 String 类的 length 方法返回有符号整数因为在 C 整数中如果未指定则意味着有符号 Ruby 实现整数的方式使得有符号无符号的区别无关紧要因为 R
如何排列 TPopupMenu 以使其准确地将自己定位在按钮上方？

我想要一个按钮上方的弹出菜单 Delphi 包装 Win32 菜单系统的方式似乎排除了底层 Win32 API 提供的每种模式或标志而这些模式或标志当时并没有出现在 VCL 作者的脑海中一个这样的例子似乎是TPM BOTTOMALIGN
jQuery UI DatePicker - 禁用除每个月的第一天和第 15 天之外的所有日期

我想禁用此日期选择器上除每月 1 日和 15 日之外的所有日期我引用了这个已回答的问题但我只能返回一个日期我是 javascript 的新手 jQuery UI DatePicker 禁用除每月最后一天之外的所有日期任何帮助都会很棒
Python 中的 3D Dicom 可视化

我是 3D 图像处理新手我想知道如何用python查看dicom系列我尝试使用 matplotlib 和 VTK 在 matplot 中我无法像使用 volViewer 在 matlab 中查看那样查看体积关于 VTK 我无法导入
替换 csv 文件中的新行 (\n) 字符 - Spark scala

为了说明问题我采取了一个测试集 csv 文件但在实际情况下问题必须处理超过 TeraByte 的数据我有一个 CSV 文件其中的列用引号括起来 col1 但是当数据导入完成后一列包含换行符 n 当我想将它们保存为 Hive 表时

替换 csv 文件中的新行 (\n) 字符 - Spark scala

替换 csv 文件中的新行 (\n) 字符 - Spark scala 的相关文章

随机推荐

热门标签