由于保存之前/之后的 CSV 差异而导致错误解析(Java w/ Apache Commons CSV)

2024-05-08

我有一个 37 列的 CSV 文件,我正在使用 Apache Commons CSV 1.2 在 Java 中解析该文件。我的设置代码如下:

//initialize FileReader object
FileReader fileReader = new FileReader(file);

//intialize CSVFormat object
CSVFormat csvFileFormat = CSVFormat.DEFAULT.withHeader(FILE_HEADER_MAPPING);

//initialize CSVParser object
CSVParser csvFileParser = new CSVParser(fileReader, csvFileFormat);

//Get a list of CSV file records
List<CSVRecord> csvRecords = csvFileParser.getRecords();

// process accordingly

我的问题是,当我将要处理的 CSV 复制到目标目录并运行解析程序时,出现以下错误:

Exception in thread "main" java.lang.IllegalArgumentException: Index for header 'Title' is 7 but CSVRecord only has 6 values!
        at org.apache.commons.csv.CSVRecord.get(CSVRecord.java:110)
        at launcher.QualysImport.createQualysRecords(Unknown Source)
        at launcher.QualysImport.importQualysRecords(Unknown Source)
        at launcher.Main.main(Unknown Source)

但是,如果我将文件复制到目标目录,打开并保存它,然后再次尝试该程序,它就可以工作。打开并保存 CSV 会在末尾添加所需的逗号,这样我的程序就不会因为没有足够的标头可供读取而抱怨。

对于上下文,这里是保存之前/之后的示例行:

之前(失败):“数据”,“数据”,“数据”,“数据”

之后(工作):“数据”,“数据”,,,,“数据”,,,“数据”,,,,,,

所以我的问题是:为什么当我打开并保存 CSV 格式时它会发生变化?我没有更改任何值或编码,保存时的行为与 MS-DOS 或常规 .csv 格式相同。另外,我在测试中使用 Excel 进行复制/打开/保存。

我需要使用一些编码或格式设置吗?我可以通过编程解决这个问题吗?

提前致谢!

EDIT #1:

对于其他上下文,当我第一次查看原始文件中的空行时,它只有新行 ^M 字符,如下所示:

^M

在 Excel 中打开并保存后,它看起来像这样,其中包含所有 37 个空字段:

,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,^M

这是 Windows 编码差异吗?


也许这与最初生成该文件的内容存在兼容性问题。 Excel 似乎接受空行作为有效行,每列中包含空字符串,列数与其他行相匹配。然后它根据 CSV 约定并使用列分隔符保存它。 (^M 是回车符;在 Microsoft 系统上,它位于文本文件中行尾的换行符之前)

也许您可以通过创建自己的解决方案来处理它Reader https://docs.oracle.com/javase/8/docs/api/java/io/Reader.html位于 FileReader 和 CSVParser 之间的子类。您的阅读器将读取一行,如果该行为空,则返回包含正确逗号数量的行。否则就按原样返回该行。

例如:

class MyCSVCompatibilityReader extends BufferedReader
    {
    private final BufferedReader delegate;

    public MyCSVCompatibilityReader(final FileReader fileReader)
        {
        this.delegate = new BufferedReader(fileReader);
        }

    @Override
    public String readLine()
        {
        final String line = this.delegate.readLine();
        if ("".equals(line.trim())
            { return ",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,"; }
        else
            { return line; }
        }
    }

实现接口时还有很多其他细节需要正确实现。您需要传递对所有其他方法(关闭、就绪、重置、跳过等)的调用,并确保每个方法read()方法工作正常。如果文件很容易适合内存,那么只需读取文件并将固定版本写入新文件可能会更容易字符串编写器 https://docs.oracle.com/javase/8/docs/api/java/io/StringWriter.html然后创建一个字符串读取器 https://docs.oracle.com/javase/8/docs/api/java/io/StringReader.html到 CSVParser。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

由于保存之前/之后的 CSV 差异而导致错误解析(Java w/ Apache Commons CSV) 的相关文章

随机推荐

  • 如何在xamarin表单中更改屏幕亮度

    我有 xamarin 形式的 qr 页面 我想要的是当 qr 显示时屏幕亮度会更亮 但我找不到解决方案 我在互联网上找到了一些代码 但它返回时带有一些错误代码消息 编辑 我删除了源代码 因为它看起来让一些人感到困惑 我尝试的代码是针对 xa
  • Magento 如何通过静态块/页面中的 id 链接到类别

    我正在寻找使用以下方法从静态块链接到一个类别category id 有什么想法吗 我已经进行了通常的搜索 但没有结果 目前我可以做类似的事情 a href 但这并不稳健 使用类别链接小部件内联链接代码 widget type catalog
  • 如何在 Firefox 和 IE 中获得自定义滚动条?

    我正在使用自定义滚动 它在 chrome 中工作正常 但在 Firefox 或 IE9 中不起作用 这是CSS webkit scrollbar width 7px height 1px webkit scrollbar thumb hei
  • 如何在窗体上双缓冲 .NET 控件?

    如何设置受保护DoubleBuffered遭受闪烁的窗体上的控件的属性 这是一个更通用的版本假人的解决方案 https stackoverflow com questions 76993 how to double buffer net c
  • 在辅助监视器中创建 WPF 窗口时遇到问题

    我正在努力在应用程序中实现一些类似 Chrome 的选项卡功能 但在正确生成新实例时遇到一些问题 我已经对各种解决方案进行了大量搜索和迭代 但尚未能够在第二台显示器上生成新窗口 这是使用线程 打开文件 将当前选项卡拖至其他显示器 新的应用程
  • 故事板入口点缺失

    在 xcode 7 2 中 对象列表中没有 Storyboard Entry Point 项 我需要使用 Storyboard Entry Point 我通过谷歌搜索找不到任何类似的问题 所以任何人都可以在这里帮助我 单击要作为情节提要入口
  • 从数据帧字典中获取单独的数据帧 Python

    我有一本字典d充满了数据帧的集合 key type size value gm1 dataframe mxn gm2 dataframe mxN gm10 dataframe nxM 我想使用它们来一一输出这些数据帧keys作为新数据框的名
  • 如何在 Bash 中为数组赋值?

    我正在尝试从文本文件中读取值列表 你好 txt 并将它们存储在一个数组中 counter 0 cat hello txt while read line do Unix Array counter line let counter coun
  • Kafka 适合运行公共 API 吗?

    我有一个想要发布的事件流 它被划分为主题 不断更新 需要水平扩展 并且没有 SPOF 很好 并且可能需要在某些情况下重播旧事件 所有的功能似乎都与 Kafka 的功能相匹配 我想通过任何人都可以连接并获取事件的公共 API 将其发布到全世界
  • 如何在 PHPWord 中更改纸张大小

    如何更改phpword中的纸张大小 我想将纸张尺寸更改为 Legal 纸张 8 5 英寸 x 14 英寸 我在文档中找不到该选项 我不确定如何应用该规则 并且文档中似乎没有与此相关的 纸张 或 大小 https phpword readth
  • 如何将vue文件样式提取到一个单独的style.css文件中

    我正在使用 vue loader 默认情况下 对于每个 vue 文件 您的视图中都有一个样式标签 这不是一件好事 根据 vue loader 文档我可以做到这一点 https vue loader vuejs org en configur
  • 修改SQL Server中的默认值

    我正在尝试使用 SQL Server 2008 中的 SQL 语句更改列的默认值 我在很多地方找到了如何在创建表 添加列时设置默认值 但没有找到如何设置它 一旦列已经存在就修改它 这就是我可以用来在添加时设置它的内容 ALTER TABLE
  • R 中第三维的平均值

    R中是否有任何快速方法或内置函数来计算基于第三维的平均值 例如我的数组是 1 1 2 1 1 3 2 2 4 2 1 2 1 11 13 2 12 14 3 1 2 1 21 23 2 22 24 我的输出是 1 2 1 mean 1 11
  • 我是否需要在我的 Firebase 项目中添加 SHA-1 指纹?

    在 Firebase 上有一个弹出窗口 显示我的项目可以添加指纹 SHA1 因为我只想使用一些 Firebase 服务 例如实时数据库 身份验证 我需要在我的项目中添加指纹吗 该图显示 仅在使用某些 Google Play 服务 如 OAu
  • img 标签如何通过 cors 标头获取内容

    为什么当我使用 fetch 从禁用响应 CORS 标头的服务器加载数据时 我预期会收到错误 Failed to load http www imgworlds com wp content uploads 2015 12 18 CONTAC
  • 在 MVC 中使用 Request.URL 和 Request.URLReferrer 获取当前链接的替代方案?

    我希望在我的中编写一个方法 属性BaseController允许任何操作获取当前 URL 的类 如果我打电话localhost Keyword Edit 1我可以用Request Url获取网址 但是 如果我的编辑视图中有部分视图 我需要使
  • SQLite3 数学函数 Python

    更新 SQLite 版本 3 5 0 后 可以使用 SQL 数学函数 如果我在 pycharm 查询中使用它 它效果很好 但我无法在 python 代码中执行查询 然后我收到以下错误消息 pandas io sql DatabaseErro
  • 在 LaTeX 中自动将新句子中第一个单词的第一个字母大写

    我知道 LaTeX 的吹嘘点之一是它没有这种微软式的行为 尽管如此 它有时还是有用的 LaTeX 已经在您键入 非反斜杠 句点后添加了一个额外的空格 因此应该可以使其自动将后面的字母大写 是否有一个明显的方法来编写一个宏来执行此操作 或者是
  • Python 中的“Zip”列表字典

    我有一个列表字典 我想将它们合并到一个命名元组列表中 我想要第一个元组中所有列表的第一个元素 第二个元组中的第二个元素 依此类推 Example key1 1 2 3 key2 4 5 6 key3 7 8 9 我希望生成的列表如下所示 k
  • 由于保存之前/之后的 CSV 差异而导致错误解析(Java w/ Apache Commons CSV)

    我有一个 37 列的 CSV 文件 我正在使用 Apache Commons CSV 1 2 在 Java 中解析该文件 我的设置代码如下 initialize FileReader object FileReader fileReader