使用 Scala 解析器组合器解析 CSV 文件

2024-02-17

我正在尝试使用 Scala 解析器组合器编写 CSV 解析器。语法基于RFC4180 https://www.rfc-editor.org/rfc/rfc4180#page-2。我想出了以下代码。它几乎可以工作，但我无法让它正确分隔不同的记录。我错过了什么？

object CSV extends RegexParsers {
  def COMMA   = ","
  def DQUOTE  = "\""
  def DQUOTE2 = "\"\"" ^^ { case _ => "\"" }
  def CR      = "\r"
  def LF      = "\n"
  def CRLF    = "\r\n"
  def TXT     = "[^\",\r\n]".r
  
  def file: Parser[List[List[String]]] = ((record~((CRLF~>record)*))<~(CRLF?)) ^^ { 
    case r~rs => r::rs
  }
  def record: Parser[List[String]] = (field~((COMMA~>field)*)) ^^ {
    case f~fs => f::fs
  }
  def field: Parser[String] = escaped|nonescaped
  def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")}
  def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }

  def parse(s: String) = parseAll(file, s) match {
    case Success(res, _) => res
    case _ => List[List[String]]()
  }
}


println(CSV.parse(""" "foo", "bar", 123""" + "\r\n" + 
  "hello, world, 456" + "\r\n" +
  """ spam, 789, egg"""))

// Output: List(List(foo, bar, 123hello, world, 456spam, 789, egg)) 
// Expected: List(List(foo, bar, 123), List(hello, world, 456), List(spam, 789, egg))

更新：问题已解决

默认的 RegexParsers 使用正则表达式忽略空格，包括空格、制表符、回车符和换行符[\s]+。上面的解析器无法分离记录的问题就是由于这个原因造成的。我们需要禁用skipWhitespace 模式。将空白定义替换为仅[ \t]}并不能解决问题，因为它会忽略字段中的所有空格（因此 CSV 中的“foo bar”变为“foobar”），这是不希望的。因此，解析器的更新源是

import scala.util.parsing.combinator._

// A CSV parser based on RFC4180
// https://www.rfc-editor.org/rfc/rfc4180

object CSV extends RegexParsers {
  override val skipWhitespace = false   // meaningful spaces in CSV

  def COMMA   = ","
  def DQUOTE  = "\""
  def DQUOTE2 = "\"\"" ^^ { case _ => "\"" }  // combine 2 dquotes into 1
  def CRLF    = "\r\n" | "\n"
  def TXT     = "[^\",\r\n]".r
  def SPACES  = "[ \t]+".r

  def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ (CRLF?)

  def record: Parser[List[String]] = repsep(field, COMMA)

  def field: Parser[String] = escaped|nonescaped


  def escaped: Parser[String] = {
    ((SPACES?)~>DQUOTE~>((TXT|COMMA|CRLF|DQUOTE2)*)<~DQUOTE<~(SPACES?)) ^^ { 
      case ls => ls.mkString("")
    }
  }

  def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }



  def parse(s: String) = parseAll(file, s) match {
    case Success(res, _) => res
    case e => throw new Exception(e.toString)
  }
}

你错过的是空白。我投入了一些额外的改进。

import scala.util.parsing.combinator._

object CSV extends RegexParsers {
  override protected val whiteSpace = """[ \t]""".r

  def COMMA   = ","
  def DQUOTE  = "\""
  def DQUOTE2 = "\"\"" ^^ { case _ => "\"" }
  def CR      = "\r"
  def LF      = "\n"
  def CRLF    = "\r\n"
  def TXT     = "[^\",\r\n]".r

  def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ opt(CRLF)
  def record: Parser[List[String]] = rep1sep(field, COMMA)
  def field: Parser[String] = (escaped|nonescaped)
  def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")}
  def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }

  def parse(s: String) = parseAll(file, s) match {
    case Success(res, _) => res
    case _ => List[List[String]]()
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Scala 解析器组合器解析 CSV 文件的相关文章

如何将 CSV 文件中的数据导入到服务器端的 Meteor 集合中

我正在尝试为我之前的帖子找到解决方案 Mongo 在 Meteor 应用程序中的 id 字段上给出重复键错误 https stackoverflow com questions 28961281 mongo gives duplicate
将查询结果作为 CSV 文件从 Docker PostgreSQL 容器导出到本地计算机

我不确定这是否可能或者我是否做错了什么因为我对 Docker 还很陌生基本上我想将 PostgreSQL docker 容器内的查询结果作为 csv 文件导出到本地计算机这就是我到目前为止所得到的首先我使用以下命令运行 Pos
Scala 函数定义参数列表中不同的括号样式

Scala 中以下两个函数定义有什么区别 1 def sum f Int gt Int a Int b Int Int code 2 def sum f Int gt Int a Int b Int Int code SBT 的控制台 RE
如何从 lift webapp 读取文件

我想在我的 lift 应用程序中读取 xml 文件 val data XML load new java io InputStreamReader new java io FileInputStream 文件名编码然而我得到java
帮助我理解这段 Scala 代码：scalaz IO Monad 和隐式

这是后续this https stackoverflow com questions 7404495 help me understand this scala code scalaz io monad问题这是我试图理解的代码它来自ht
用于 RSS feed 解析的 Objective-C 库？

我正在为 iOS 应用程序寻找一个 Objective C 库该库将解析并显示 RSS 提要中的文章具体来说我正在寻找为新闻网站制作一个应用程序如果可能的话该框架应该能够使用各种 RSS XML 结构嗯有两个不同的新闻网站一
使用 XSLT 转换 XML 并保留 CDATA（在 Ruby 中）

我正在尝试将包含如下内容的文档转换为另一个文档使 CDATA 与第一个文档中的完全相同但我还没有弄清楚如何使用 XSLT 保留 CDATA 初始 XML
对列表中的相邻元素进行分组

假设我想编写一个函数来执行此操作输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组这个方法的名称应该是什么此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6
如何从 Perl 中的文本文件中提取/解析表格数据？

我正在寻找类似的东西HTML 表格提取 http search cpan org dist HTML TableExtract 只是不适用于 HTML 输入而是适用于包含采用缩进和间距格式化的表格的纯文本输入数据可能如下所示 Her
Akka/Scala：映射 Future 与 pipelineTo

In Akka参与者在发送一个Future结果给另一个演员 A 映射Future发挥作用tell结果给演员 B 定义一个onSuccess未来的回调其中tell结果给演员 C 管道Future结果给演员pipeTo 其中一些选项已在上一
从日志文件 python 创建 csv 标题

我的日志文件每行都包含一些信息如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
scala 中的模拟案例类：Mockito

在我的游戏应用程序中我打算模拟一个案例类我可以这样做但它创建了一个所有成员变量都为空的对象有没有办法创建案例类的模拟对象以便该对象可以初始化一些成员 case class User name String address Stri
减少每日状态表以仅包含状态更改

我有一个包含 10 万以上用户的大型每日状态表 5 7 亿行目前它位于 MySQL 或 CSV 中该表包含三列 user id status 和 date 理想情况下我希望将表缩减为一个新表其中包含每个状态期间的 user id s
使用 GSON 将 JSON 字符串转换为 Java 对象

我正在尝试将 json 解析为 java 根据 jsonlint com 我有以下字符串该字符串是有效的 json private final static String LOC JSON lat1 39 737567 lat2 32 7
为什么我不能将 Scala 的 Function1 隐式转换为 java.util.function.Function？

我正在尝试创建 Scala Function1 到 java util function Function 的隐式转换这是我的代码 object Java8ToScala extends App implicit def javaFunc
如何在开头时解析 json 文件

我想解析以下 JSON 文件但以向我表明这是一个数组然后继续对象我当前的解析器返回一个 JSON 对象我的问题是如何修改解析器来解析这个文件这样解析器将为我提供其他 JSON 文件从对象或排列开始 JSON 文件 codi
为什么 Cassandra 客户端在生产中没有 epoll 时会失败？ [复制]

这个问题在这里已经有答案了当我在本地运行服务时我收到一条警告指出 epoll 不可用因此它使用 NIO 很公平当我将其部署到 Kubernetes 中时我得到了以下信息这导致服务无法运行 2017 03 29T19 09 22
include 内的 ASP.net 代码不执行

我已经很长时间没有涉足服务器端了但在我看来嵌入在包含的代码文件中的脚本应该正常执行由于某种原因情况似乎并非如此注意下面显然是一个基于我的调试尝试的简化实现实际上我在实际项目中还得到了其他包含平面 HTML 和 JavaScr
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
Papa Parse 在本地读取 CSV

有人可以指出或向我展示 Papa Parse 读取 csv 文件的工作示例吗当我尝试使用时 Papa parse file complete function results console log Finished results da

随机推荐

使用 Visio 2010 (Professional Plus) 从 SQL 导出实体关系图

我正在寻找问题的相反解决方案从 Visio 图表导出 SQL https stackoverflow com questions 3506012 exporting sql from a viso diagram 我有用于创建 MySQL
将流中的元素添加到现有列表的更好方法是什么？

我必须编写一些代码将 Java 8 Stream 的内容多次添加到列表中但我很难找出最好的方法根据我在 SO 上读到的内容主要是这个问题如何将 Java8 流的元素添加到现有列表中 https stackoverflow com
包含客户端、服务器和共享代码的项目中的 Typescript 文件夹结构

我有一个具有以下结构的项目 project client src index js and js some js other js files js public server out index js any other dependen
CSS 下拉菜单 -> 跨浏览器

你们中的任何一位出色的开发人员都可以链接或为我提供跨浏览器菜单的链接吗我的菜单及其在 Firefox 中的加载有问题但在 chrome 中没问题我的 div 保持在正确的位置但菜单本身下降到 div 下方我的 HTML 是动态生成
如何将触摸事件传输到RelativeLayout下面的视图？

我有一个ScrollView在另一个视图之上与Buttons The ScrollView占据了整个屏幕并遮挡了屏幕下方的视图在我的应用程序中的某个时刻我需要ScrollView被禁用但仍然可见并将所有触摸事件传输到Buttons位
org/springframework/aop/framework/AbstractAdvisingBeanPostProcessor 的 java.lang.NoClassDefFoundError

各位我收到以下编译错误 May 11 2014 1 30 41 PM org apache catalina core ApplicationContext log SEVERE StandardWrapper Throwable org
Chart.js 错误：您可能需要适当的加载器来处理此文件类型

我目前正在尝试使用Chart js在我的反应应用程序中但是当我去构建我的应用程序时我遇到了这个错误 ERROR in node modules chart js dist chart esm js Module parse failed
XAML 绑定到另一个元素的相反元素

我正在开发一个简单的练习想知道是否有一种方法可以仅使用 XAML 绑定到另一个元素的相反元素例如我的表单上有两个按钮开始和停止可能用于计时器我不希望两者同时启用当程序启动时停止按钮应该被禁用单击开始按钮后应将其禁用并
JavaScript 中文件大小使用什么测量单位？

我正在尝试在上传到服务器之前验证客户端的文件大小不过我认为我需要计算 JavaScript 中的最大大小那么我该怎么写4MB在 JavaScript 中我还想知道 javascript 根据文件大小计算的基本单位是什么下面是我的感冒
警告构建：运行脚本构建阶段“模块”将在每次构建期间运行，因为它未指定任何输出。为了解决这个警告

我收到一些集成到我的工作区中的框架模块的错误警告构建运行脚本构建阶段模块名称将在期间运行每个构建因为它没有指定任何输出为了解决这个问题警告将输出依赖项添加到脚本阶段或者通过取消选中基于依赖关系将其配置为在每个构建
mxGraph：当我移动边缘的手柄点时会触发哪个事件？

我移动了点我想保存移动后的位置我怎样才能赶上这个活动我知道边缘在移动后得到点我可以在几何图形中找到控制点但我需要运动结束的那一刻我不确定它是否有帮助但我通常有一个 mxEvent CHANGE 监听器并处理每个更改像这样
使用 Spray 发送带有 json 的帖子？

抱歉我无法完成这项工作我需要在帖子中添加一些 json 因此请遵循文档 http spray io documentation 1 1 M8 spray httpx request building http spray io docu
微软 - 我可以使用免费软件做什么

Visual Studio 的购买价格非常昂贵这就是为什么我想知道我可以使用什么来免费开发 ASP NET 和 silverlight 应用程序如果我使用express工具我可以开发商业应用程序吗使用 Mono 及其 IDE 怎么样
使用指针实现 strcat

在做一些关于字符串的程序时我遇到了这个小问题他们向我提出的问题是编写函数 strcat s t 的指针版本它将字符串 t 复制到 s 的末尾我把程序写成这样 include
无法解析 com.google.firebase:firebase-core:10.0.1

我想在我的 Android 应用程序中使用 Firebase 云消息传递这是我的应用程序级别 gradle 文件 apply plugin com android application android signingConfigs co
Ruby 大数组和内存

我创建了一个大数组a 其内存增长至约 500 MB a t Thread new do loop do sleep 1 print a size end end 5 000 000 times do a lt lt rand 36 10 t
@testing-library/React：单击组件外部不起作用

我正在使用 React 测试库来测试使用 FluentUI 构建的组件这是链接 https codesandbox io s keen borg 2tqmj file src App spec js https codesandbox i
想要一个 eclipse java 项目自动运行 ant 构建文件

我有一个 Eclipse Java 项目而不是插件项目该项目有一些外部依赖项我在两个单独的 ant 文件中处理它们一切工作正常但我想强制 Eclipse 在每次构建我的项目时运行 ant 文件我怎样才能做到这一点如果这是一个插
Google 表格：来自雅虎财经的 IMPORTXML [重复]

这个问题在这里已经有答案了我正在尝试从雅虎财经导入当前股票价格我使用了一些网站上的公式它部分有效我只知道如何告诉它寻找特定的查询它对于我需要的其他一些数据点工作得很好但价格变化查询从 Fw 500 Pstart 10px Fz
使用 Scala 解析器组合器解析 CSV 文件

我正在尝试使用 Scala 解析器组合器编写 CSV 解析器语法基于RFC4180 https www rfc editor org rfc rfc4180 page 2 我想出了以下代码它几乎可以工作但我无法让它正确分隔不同的记录

使用 Scala 解析器组合器解析 CSV 文件

更新：问题已解决

使用 Scala 解析器组合器解析 CSV 文件 的相关文章

随机推荐

热门标签

使用 Scala 解析器组合器解析 CSV 文件的相关文章