使用fread读取带有双引号和不正确转义字符的数据

2024-04-07

我尝试使用以下命令加载大型数据文件（约 2000 万行）fread()来自数据表包裹。然而，有些行却造成了很大的麻烦。

最小的例子：

text.csv contains:

id, text
1,"""Oops"",\""The"",""Georgia"""        

fread("text.csv", sep=",")

Error in fread("text.csv", sep = ",") : 
  Not positioned correctly after testing format of header row. ch=','
In addition: Warning message:
In fread("text.csv", sep = ",") :
  Starting data input on line 2 and discarding line 1 because it has too few or too many items to be column names or data: id, text

read.table()效果稍好一些，但速度太慢，而且内存效率太低。

> read.table("text.csv", header = TRUE, sep=",")
  id                     text
1  1 "Oops",\\"The","Georgia"

我意识到我的文本文件格式不正确，但它太大而无法以实际方式进行编辑。

非常感谢任何帮助。

EDIT:

实际数据记录的一个小样本：

sample1.txt, a good record:

materiale_id,dk5,description,creator,subject-phrase,title,type
125030-katalog:000000003,[78.793],Privatoptagelse. - Liveoptagelse,Frederik Lundin,,Koncert i Copenhagen Jazz House den 26.1.1995,music

> fread("sample1.txt", sep=",")
               materiale_id      dk5                      description         creator subject-phrase
1: 125030-katalog:000000003 [78.793] Privatoptagelse. - Liveoptagelse Frederik Lundin             NA
                                           title  type
1: Koncert i Copenhagen Jazz House den 26.1.1995 music


sample2.txt, a good and a bad record:

materiale_id,dk5,description,creator,subject-phrase,title,type
125030-katalog:000000003,[78.793],Privatoptagelse. - Liveoptagelse,Frederik Lundin,,Koncert i Copenhagen Jazz House den 26.1.1995,music
150012-leksikon:100019,,"Databehandling vedrÃ¸rer rutiner og procedurer for datareprÃ¦sentation, lagring af data, overfÃ¸rsel af data mellem forskellige instanser eller brugere af data, beregninger eller andre operationer udfÃ¸rt med...",,"[""Informatik"",""it"",""It, teknik og naturvidenskab"",""leksikonartikel"",""Software, programmering, internet og webkommunikation""]",it - elementer i databehandling,article

> fread("sample2.txt", sep=",")
Empty data.table (0 rows) of 11 cols: 150012-leksikon:100019,V2,Databehandling vedrÃƒÂ¸rer rutiner og procedurer for datareprÃƒÂ¦sentation, lagring af data, overfÃƒÂ¸rsel af data mellem forskellige instanser eller brugere af data, beregninger eller andre operationer udfÃƒÂ¸rt med...,V4,[""Informatik","it"...

EDIT 2:

更新到 R 版本 3.2.3 和 data.table 1.9.6。对上述内容有帮助，但会与其他记录产生问题：

sample3.txt, a good and a bad record:

materiale_id,dk5,description,creator,subject-phrase,title,type
125030-katalog:000236595,,,Red Tampa Solist prf,"[""Tom"",""Georgia"",""1929-1930""]","Georgia Tom, 1929-1930",music
125030-katalog:000236596,,,Jane Lucas (Solist),"[""1928-1931"",""Tom,\""The"",""Georgia"",""Accompanist""]","Georgia Tom,""The Accompanist"" (1928-1931)",music

> s3 <- fread("sample3.txt", sep=",")
Error in fread("sample3.txt", sep = ",") : 
  Expecting 7 cols, but line 3 contains text after processing all cols. It is very likely that this is due to one or more fields having embedded sep=',' and/or (unescaped) '\n' characters within unbalanced unescaped quotes. fread cannot handle such ambiguous cases and those lines may not have been read in as expected. Please read the section on quotes in ?fread.

EDIT 3:

更新至开发版本1.9.7数据表中断fread()共：

> s3 <- fread("sample3.txt", sep=",")
Error in fread("sample3.txt", sep = ",") : 
  showProgress is not type integer but type 'logical'. Please report.

EDIT 4:

当记录包含字符串时，我的文件中似乎出现了问题\\"（字面意思，不是正则表达式）。显然，反斜杠太多了，导致fread()将双引号误解为字符串的结尾，而本应将其视为乱码。

到目前为止我最好的解决方案是这样做：

m1 <- readLines("data.csv", encoding="UTF-8")
m2 <- gsub("\\\\\"", "\\\"", m1)    
writeLines(m2, "data_new.csv", useBytes = TRUE)
m3 <- fread("data_new.csv", encoding="UTF-8", sep=",")

这似乎有效。

但我并不 100% 理解这一点，因此非常欢迎任何澄清。

Not a 数据表解决方案，但你可以尝试：

# read the file with 'readLines'
tmp <- readLines("trl.txt")

# create a column name vector of the first line
nms <- trimws(strsplit(tmp[1],',')[[1]])

# convert 'tmp' to a dataframe except the first line
tmp <- as.data.frame(tmp[-1])

# use 'separate' from 'tidyr' to split into two columns
library(tidyr)
df1 <- separate(tmp, "tmp[-1]", nms, sep=",", extra = "merge")

这使：

> df1
  id                             text
1  1 """Oops"",\\""The"",""Georgia"""

更新编辑1：使用新的示例数据fread看起来读取数据正常：

> s1 <- fread("sample1.txt", sep=",")
> s1
               materiale_id      dk5                      description         creator subject-phrase                                         title  type
1: 125030-katalog:000000003 [78.793] Privatoptagelse. - Liveoptagelse Frederik Lundin             NA Koncert i Copenhagen Jazz House den 26.1.1995 music


> s2 <- fread("sample2.txt", sep=",")
> s2
               materiale_id      dk5
1: 125030-katalog:000000003 [78.793]
2:   150012-leksikon:100019         
                                                                                                                                                                                                           description
1:                                                                                                                                                                                    Privatoptagelse. - Liveoptagelse
2: Databehandling vedrÃ¸rer rutiner og procedurer for datareprÃ¦sentation, lagring af data, overfÃ¸rsel af data mellem forskellige instanser eller brugere af data, beregninger eller andre operationer udfÃ¸rt med...
           creator                                                                                                                         subject-phrase
1: Frederik Lundin                                                                                                                                       
2:                 [""Informatik"",""it"",""It, teknik og naturvidenskab"",""leksikonartikel"",""Software, programmering, internet og webkommunikation""]
                                           title    type
1: Koncert i Copenhagen Jazz House den 26.1.1995   music
2:               it - elementer i databehandling article

编辑 2 和 3 的更新：

当您查看错误消息时：

错误于fread("sample3.txt", sep = ",")：预计 7 列，但是第 3 行包含处理所有列后的文本。很有可能的是这是由于一个或多个字段嵌入了sep=','和/或（未转义）不平衡的未转义引号内的 '\n' 字符。fread无法处理这种模棱两可的情况，并且这些行可能没有被按预期读入。请阅读有关报价的部分?fread.

然后当你看第二行时sample3.txt您将看到第四列也包含逗号。您可以通过三个步骤解决这个问题：

1:读取文件readLines并将第四列的开始和结束字符替换为另一个引号字符：

r3 <- readLines("sample3.txt")
r3 <- gsub('\"[',"'",r3,fixed=TRUE)
r3 <- gsub(']\"',"'",r3,fixed=TRUE)

2:将其写回文本文件：

 writeLines(r3, "sample3-1.txt")

3:现在你可以阅读它fread (or read.table/read.csv）。由于列标题的数量与列的数量不同，因此您必须使用header = FALSE。还要将引号字符显式设置为步骤 2 中插入的新引号字符：

s3 <- fread("sample3-1.txt", quote = "\'", header = FALSE, skip = 1)

这使：

> s3
                         V1 V2 V3                   V4                                                        V5           V6                               V7    V8
1: 125030-katalog:000236595 NA NA Red Tampa Solist prf                         ""Tom"",""Georgia"",""1929-1930"" "Georgia Tom                       1929-1930" music
2: 125030-katalog:000236596 NA NA  Jane Lucas (Solist) ""1928-1931"",""Tom,\\""The"",""Georgia"",""Accompanist"" "Georgia Tom ""The Accompanist"" (1928-1931)" music

之后，您可以按如下方式分配列名称：

names(s3) <- c("character","vector","with","eight","column","names")

_{NOTE: I used a pretty recent version (two weeks old) of v1.9.7 for this}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

使用fread读取带有双引号和不正确转义字符的数据的相关文章

R闪亮：在渲染表格时显示“正在加载...”消息

在 Rstudio Shiny 中我得到了一些renderDataTable通过 RMySQL 从数据库获取信息的调用有些查询可能需要几秒钟才能完成我想添加一条正在加载消息其中表格将在等待时最终呈现这个问题与这个问题类似 R闪
r 闪亮下载过滤数据表（DT）

我正在尝试做一个shiny应用程序下载过滤后的Datatable 过滤与search 通过删除行进行过滤delete button 下载部分按预期工作问题当我第一次使用数据表中的搜索区域进行过滤时如果我使用按钮删除一行它会重置第一个
R 单个变量中的多重图

嗨我有下一个代码 par mfrow c 1 3 plot BCxyz 1 BCxyz 2 main Bray Curtis 1 2 pch 20 cex 3 col c blue green red yellow Metadata Sa
如何在时间序列的中途更改ggplot2中的线属性？

取以下两个时间序列的简单图 economics ggplot2 dataset require dplyr require ggplot2 require lubridate require tidyr economics gt gathe
R grep：有 AND 运算符吗？

假设我有以下数据框 User Id Tags 34234 imageUploaded people jpg more comma separated stuff 34234 imageUploaded 12345 people jpg 我如
查询文本指定 use_legacy_sql:false，而 API 选项指定:true

我将 standardSQL 与 bigrquery 一起使用 library bigrquery project lt sql lt standardSQL SELECT result lt query exec sql project
Caret 和 GBM：任务 1 失败 - “参数意味着行数不同”

我正在尝试使用以下代码运行带插入符号的 GBM library caret library doParallel detectCores registerDoParallel detectCores 1 set seed 668 in tr
根据R中的行差异对行进行分组[重复]

这个问题在这里已经有答案了我有一组具有不同采样间隔的动物位置我想要做的是采样间隔符合特定标准例如低于特定值的组和序列让我用一些虚拟数据来说明 start lt Sys time timediff lt c rep 5 3 20 r
gridExtra 2.0.0 更改标题大小

我知道 gridExtra 已更新因此我想知道如何更改标题大小这不再有效 grid arrange a b c d ncol 2 nrow 2 main textGrob Title gp gpar fontsize 15 font
R 中的插补 MICE 仍不存在于数据集中

运行 MICE 包后 5 个完整插补集中的缺失值数量从 147428 减少到 46093 但不是应该是 0 NA 吗 Thanks 这是我的 MICR 代码 imp mice newdata imputationSet1 complete
当我创建新变量时出了什么问题？

我想根据原始变量施加的条件创建一个新变量比方说原始变量 var 是由 1 20 中的随机样本组成的向量并且当原来的 var 大于10时新变量 newvar 被设置为缺失当 var 小于10时新变量 newvar 被设置为等于
使用 ``magrittr::`%>%` `` 时 magrittr 管道出错

不管出于什么原因我在玩magrittr管道语法并遇到一个奇怪的错误当您 scope 显式限定调用时发生 gt 我知道使用下面的语法会破坏管道的用途但我很好奇为什么会发生错误第一次致电sum按预期工作并输出1 第二次调用会导致错误 E
不同元素的ggplot字体大小

我知道在创建 ggplot 图后我可以使用theme get 返回所有主题元素的详细信息这对于弄清楚诸如此类的事情非常有帮助strip text x等等但我有两件事无法弄清楚 1 在下面的ggplot图形中代表短语被土拨鼠卡住的木头
在 RGUI 中自动保存 R 源

是否可以告诉 RGui 自动保存 R 源代码以便它们在系统崩溃时不会丢失我非常怀念这个功能因为我的系统时不时地崩溃而且我不想仅仅因为需要这个功能而使用 R Studio 或其他一些 IDE 我喜欢 RGui 提供的简单性 None
如何在函数和循环中使用 data.table？

在评估效用时data table vs dplyr 一个关键因素是在函数和循环中使用它的能力为此我修改了本文中使用的代码片段 data table 与 dplyr 一个可以做得很好而另一个不能做或做得很差吗 https stackove
加载 plyr 包时出现问题

我使用 R 2 13 1 但未能成功尝试在 R 中加载包 plyr 1 6 我已将其手动安装到目录 R library 中我的代码是 libPaths R library library plyr 我收到消息库 plyr 中的错误 pl
R Shiny 中表格的条件格式

我正在尝试可视化队列分析并想使用RenderDataTable闪亮以获得这种可视化效果我将能够突出显示基于具有值 1 0 的单独列的所有单元格其中 1 被着色 0 不被着色我尝试了几件事包括尝试使用geom tile in ggp
是否可以旋转 R 中的绘图（基本图形）？

我搜索了这个发现使用 grid 有多种方法可以旋转图像并且对于某些绘图您可以使用它们的旋转例如plot x y 而不是plot y x 不过我想知道是否有R 中旋转绘图的通用方法适用于基础图形中生成的任何绘图您可以导出图形将其
如何在 R 中使用别名运行系统可执行文件？

假设我正在 R 中运行系统命令来运行executable inputfile lt path myfile txt 我该如何更换 path myfile txt在下面的命令中inputfile如下面命令所示 system executabl
selectInput 的动态数量

我是闪亮的新手所以这可能是一个非常基本的问题我想编写一个闪亮的应用程序其中用户输入 n 我们得到 n 个 selectInput 选项但我无法做到这一点基本上任何形式的 for 循环都不起作用我尝试的代码如下 library s

随机推荐

使用 python3.5 将 Arduino 的实时数据链接到 pyqt5 的 LCDNumber

我对制作 GUI 还很陌生我为一个项目设计了一个项目我希望在数据从 Arduino 传入时更新 LCD 我正在使用 pyqt5 来转换我的 Qtdesigner GUI 问题是我不知道如何将传入数据链接到 GUI 目前我有一个程序可以
基于嵌套键值数组对弹性搜索查询进行排序

我有一个 json uniqueKey 918084 dataValue metadata timestamps key startTime value 2017 02 07T18 00 00 06 00 key processedTime
在不附加 GDB 的情况下获取所有线程的堆栈跟踪

有没有一种方法可以在不附加 GDB 的情况下打印所有线程的堆栈跟踪或者是否有一个命令可以用作 gdb 批处理模式来打印所有线程的堆栈跟踪 elfutils https sourceware org elfutils 除其他实用程序外还包
灵气文法可以作为灵业文法重复使用吗？

我有一个 Qi 语法定义用于解析输入后来我有一个 Karma 生成器以与输入类似的方式输出这有可能吗似乎解析器语法可以自动转换为生成器语法 include
tsc 在 dist 中创建 src 文件夹

我有这个文件夹结构 src subdir1 subdir2 这是我的tsconfig json compilerOptions target es2015 module commonjs sourceMap true declaration
SSIS - 多表插入

我正在使用 SSIS 将数据从 MS Access 复制到 SQL Server 我只会复制一次这不是重复的任务只有一张源表 Table Source 我想将数据插入两个表 Table1 和 Table2 Table1 包含一个主键它
Apache - 如何获取 REMOTE_USER 变量

之前我使用IIS服务器作为PHP服务器目前它是apache 在 IIS 上我可以访问该变量 SERVER REMOTE USER 它返回用户名和域例如域用户但安装 XAMPP 后此变量不可用我应该怎么做才能再次获得这个变量我的
如何在java中找到2D ArrayList的列的唯一值？

import java util ArrayList import java util Arrays import java util List import java util Map import java util Set impor
在 C# 中使用全局热键捕获按键

我有一个在后台运行的应用程序就像我可以将我的应用程序保留在系统托盘中一样如果它保留在系统托盘上我的应用程序将完成它的工作每当用户按下 F10 或 F9 时就会完成一些工作我试过这个 public partial class Fo
未使用的indexeddb数据库是如何清理的

我使用 IndexedDB 作为本地存储并且运行良好由于过于详细的原因这里无法详细介绍我经常只创建一个数据库并使用它但在某些情况下我需要创建更多数据库在其中一些情况下这些额外的数据库可能最终会孤立或未使用并且将来不再需
ViewStub'父视图组

该异常的含义是什么 ava lang IllegalStateException ViewStub 必须有一个非空 ViewGroup viewParent 我正在创建一个视图存根数组并将它们添加到线性布局中但此异常在运行时显示 for
将数组注释与指针一起使用

我目前无法理解以下场景我有一个多维字符串数组我想仅使用指针来解决它但在指针上使用数组注释时我总是遇到分段错误这只是一个示例代码我想在 pthread 中使用 3D 数组因此我想通过结构将其作为指针传递但它不起作用我想知道为什
Three.js 支持波斯语/阿拉伯语文本

我需要以波斯语阿拉伯语显示一些文本我加载了包含字符的字体并使用 TextGeometry 在场景上创建文本 var loader new THREE FontLoader loader load B Zar Regular js fu
反汇编 Microsoft Visual Studio 2003 编译器输出

我发现 Microsoft Visual Studio 2003 工具输出的对象文件出现了奇怪的行为这file实用程序告诉我 asmfile obj 80386 COFF executable not stripped version 3
从 java 执行 PostgreSQL 匿名块

你好我有 PostgreSQL 一个匿名块例如 DATA 是 java 中的一个字符串变量其中我的匿名块 DO DECLARE new issue text BEGIN new issue UPDATE FORM9902 SET HA
使用 javascript 使复选框表现得像单选按钮

我需要使用 javascript 操作复选框的行为它们基本上应该像单选按钮一样一次只能选择一个并且取消选择任何先前的选择问题是我首先不能使用普通的单选按钮因为每个单选按钮的名称属性都会不同 I know它不是使苹果看起来像梨的最终
项目结算经理与结算帐户用户 GCP

计费帐户用户或项目计费经理可以创建计费帐户吗据我了解用户可以将项目链接到计费帐户但无法取消链接而经理可以将项目链接到计费帐户或从计费帐户取消链接计费帐户用户或项目计费经理可以创建计费帐户吗不完全是让我向您介绍一下 Google
如何在输入中添加 SVG 图标？

我需要在输入中放置图标以创建新用户对于了解前端代码的人来说这可能是一项非常简单的任务但我不这么认为这是线框然后我展示我的代码线框如你看到的输入的左侧有图标现在我的目录中有 SVG 并准备好了我只需要知道如何将它们放置在输
PHP：从递归函数返回一个数组

我有一个像这样的数组 SimpleXMLElement Object BrowseNodes gt SimpleXMLElement Object BrowseNode gt SimpleXMLElement Object BrowseNo
使用fread读取带有双引号和不正确转义字符的数据

我尝试使用以下命令加载大型数据文件约 2000 万行 fread 来自数据表包裹然而有些行却造成了很大的麻烦最小的例子 text csv contains id text 1 Oops The Georgia fread text

使用fread读取带有双引号和不正确转义字符的数据

使用fread读取带有双引号和不正确转义字符的数据 的相关文章

随机推荐

热门标签

使用fread读取带有双引号和不正确转义字符的数据的相关文章