fread()：读取以 \r\r\n 作为换行符的表

2024-03-20

我在文本文件中有制表符分隔的表，其中所有行都以\r\r\n (0x0D 0x0D 0x0A）。如果我尝试读取这样的文件fread()，它说

行结尾为 \r\r\n。 R 的 download.file() 似乎添加了额外的 \r 在 Windows 上的文本模式下。请以二进制模式重新下载 (mode='wb') 这也可能更快。或者，传递 URL 直接到 fread ，它将以二进制模式下载文件你。

但我没有下载这些文件，我已经有了它们。

到目前为止，我找到了首先读取文件的解决方案read.table()（它治疗\r\r\n组合作为单个行尾字符），然后转换结果data.frame by data.table():

mydt <- data.table(read.table(myfilename, header = T, sep = '\t', fill = T))

但我想知道是否有什么办法可以避免速度变慢read.table()并快速使用fread()反而。

我建议使用 GNU 实用程序tr摆脱那些不必要的\r人物。例如

cat("a,b,c\r\r\n1, 2, 3\r\r\n4, 5, 6", file = "test.csv")
fread("test.csv")
## Error in fread("test.csv") : 
##  Line ending is \r\r\n. R's download.file() appears to add the extra \r in text mode on Windows. Please download again in binary mode (mode='wb') which might be faster too. Alternatively, pass the URL directly to fread and it will download the file in binary mode for you.

system("tr -d '\r' < test.csv > test2.csv")
fread("test2.csv")
##    a b c
## 1: 1 2 3
## 2: 4 5 6

如果您使用的是 Windows 并且没有tr实用程序，你可以得到它here http://gnuwin32.sourceforge.net/packages/coreutils.htm.

Added:

我使用 100,000 x 5 样本 cvs 数据集对三种方法进行了一些比较。

OPcsv是“慢”read.table方法
freadScan是一种丢弃多余的方法\r纯R中的字符
freadtr调用 GNUtr通过外壳使用fread()直接地。

第三种方法是迄今为止最快的。

# create a 100,000 x 5 sample dataset with lines ending in \r\r\n
delim <- "\r\r\n"
sample.txt <- paste0("a, b, c, d, e", delim)
for (i in 1:100000) {
    sample.txt <- paste0(sample.txt,
                        paste(round(runif(5)*100), collapse = ","),
                        delim)
}
cat(sample.txt, file = "sample.csv")


# function that translates the extra \r characters in R only
fread2 <- function(filename) {
    tmp <- scan(file = filename, what = "character", quiet = TRUE)
    # remove empty lines caused by \r
    tmp <- tmp[tmp != ""]
    # paste lines back together together with \n character
    tmp <- paste(tmp, collapse = "\n")
    fread(tmp)
}

# OP function using read.csv that is slow
readcsvMethod <- function(myfilename)
    data.table(read.table(myfilename, header = TRUE, sep = ',', fill = TRUE))

require(microbenchmark)
microbenchmark(OPcsv = readcsvMethod("sample.csv"),
               freadScan = fread2("sample.csv"),
               freadtr = fread("tr -d \'\\r\' < sample.csv"),
               unit = "relative")
## Unit: relative
##           expr      min       lq     mean   median       uq      max neval
##          OPcsv 1.331462 1.336524 1.340037 1.365397 1.366041 1.249223   100
##      freadScan 1.532169 1.581195 1.624354 1.673691 1.676596 1.355434   100
##        freadtr 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000   100

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

performance

dataTable

lineendings

fread()：读取以 \r\r\n 作为换行符的表的相关文章

在 R 中使用 gsub 删除尾随空格[重复]

这个问题在这里已经有答案了有没有人有一个技巧可以用 gsub 删除变量上的尾随空格以下是我的数据示例正如您所看到的我在变量中同时包含尾随空格和嵌入空格 county lt c mississippi mississippi cany
使用 RMySQL 会干扰 RPostgreSQL

我有一个 R 脚本我想从 MySQL 数据库中提取一些数据然后从 PostgreSQL 数据库中提取一些数据但是从 RMySQL 加载 MySQL 驱动程序会阻止我从以下位置加载 PostgreSQL 驱动程序 PostgreSQL
Rstudio 命令历史记录

这些天我经常使用 Rstudio 但最近注意到我的命令不再存储在历史记录中我不知道这是从什么时候开始的但可能是在安装最新版本时发生的关于问题可能是什么的任何想法吗 Thanks 这是我们在 v0 93 73 中引入并在 v0 93 7
S4 类 [（子集）带有附加参数的继承

这是一个扩展在 R 中的访问器函数中使用 callNextMethod https stackoverflow com q 24875284 2752888 2017 03 25 更新为了说明如何仅在加载方法时失败但在构建的包中时不会失
为什么我必须在每次 R 升级时手动创建目录“~/R/%p-library/%v”？

每次R升级后我必须重新安装我使用的软件包来自源代码因此必须为新版本重新编译它们这是一个正确的可以理解的行为所以我调用install packages http stat ethz ch R manual R devel libr
字边界正则表达式问题

我在使用单词边界时遇到问题 b在我的正则表达式中我正在使用 R 但当我尝试时问题也存在http regexr com http regexr com 我使用的模式是 bs l b 虽然我预计下面的第 1 行和第 3 行能够匹配此模式但只
计算 R 中数据帧的每一行中特定值的连续出现次数

我有一个data frame许多位置这么多行的变量的每月值我想计算值为零的连续月份即连续单元格的数量如果只是从左到右阅读这很容易但增加的复杂性是年底与年初是连续的例如在下面的缩短示例数据集中用季节而不是月份位置 1
带有nearPoints()的动态ggplot图层闪亮

我熟悉闪亮的基础知识但在这里遇到了一些困难我希望能够在单击某个点以突出显示该点时添加 ggplot 图层我知道 ggvis 可以做到这一点并且画廊中有一个很好的例子但我希望能够使用nearPoints 捕获点击作为 ui 输入我
R 中的 as.numeric 有什么问题？ [复制]

这个问题在这里已经有答案了 gt X864291X8X74 1 8 0000000000 9 0000000000 10 0000000000 6 0000000000 8 0000000000 10 Levels 0 0000000000
有效地生成所有排列

我需要尽快生成所有排列 https en wikipedia org wiki Permutation整数的0 1 2 n 1并得到结果作为NumPy https numpy org 形状数组 factorial n n 或者迭代此类数组的
如果条件长度 > 1 并且仅使用第一个元素，为什么我会在 R 中收到此警告

我有下面的源代码这if is na monthData 用于检查是否monthData is NA 如果是则为其分配一个初始值 monthData lt NA if category QUARTER for m in c rep 1 4
删除 R 中具有重复属性的行

我有一个大数据框其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目在该数据框中对于某些IDs存在多个条目行我想删除这些多行显然同一 ID 的其他属性会有所不同或者换句话说我只想要每个 ID 一个条目行
时间复杂度和运行时间有什么区别？

时间复杂度和运行时间有什么区别它们是一样的吗运行时间是指程序运行所需的时间时间复杂度是对输入大小趋于无穷大时运行时间渐进行为的描述您可以说运行时间是 O n 2 或其他什么因为这是描述复杂性类和大 O 表示法的惯用方式事实上
带有闭包的 JavaScript 性能

var name function n var digits one two three four return digits n var namenew function digits one two three four return
R-在多个图的外缘绘制居中图例

我想在具有多个绘图的设备中的绘图区域之外绘制居中图例 SO 中提出了许多关于更改 R 图中图例位置的问题略有不同例如 1 R 组合图的通用标题和图例 https stackoverflow com questions 8736966 r
使用 R 从字符串中提取函数参数

最好使用stringr包我想创建一个函数extract 以字符串向量作为参数 vec lt c div span icon hospital user i18n t Enrolments or i18n t Paper a string
建模前减少因子水平数量

我有一个 2600 个级别的因子我想在建模之前将其减少到 10 我想我可以通过这样的操作来做到这一点如果一个因素列出的次数少于 x 次则应将其放入名为其他的存储桶中这是一些示例数据 df lt data frame colour
R lubridate：当地语言的工作日

如何获取本地语言的工作日和月份 My code library lubridate data lt c 10 02 2015 11 03 2015 data lubri lt dmy data wday data lubri label T
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
node-mongodb-native的插入性能

我正在使用 MongoDB 测试 Node js 的性能我知道其中每一个都很好彼此独立但我正在尝试一些测试来感受它们我遇到了这个问题但无法确定来源问题我正在尝试在单个 Node js 程序中插入 1 000 000 条记录它

随机推荐

fipy 中的 Gmsh 网格并行执行

我正在尝试解决 gmsh 网格上的并行问题加载 geo 文件时发生错误 raise EnvironmentError Gmsh version must be gt 2 0 我安装的gmsh版本是2 8 3 我也尝试过2 13 2 10
当用户想要应用程序中的另一种颜色时如何更改颜色？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案嗨我制作了一个 Android 应用程序我在想如何实现通过单击按钮将整个应用程序更改为另一种颜色例如从白色到黑色有没有一种方
调整 jQueryUI 对话框的高度，使其与内容一样高，最高可达最大值

使用 jQueryUI 的对话框我想弹出信息我的问题是我想将对话框的高度设置为内容的高度如果我不指定高度那么效果很完美高度根据内容的高度自动计算那么问题是如果内容非常高对话框也会变得非常高并低于窗口 maxHeight 在这
TreeView 中的多项选择

我正在使用 Windows 窗体TreeView在我的程序中进行控制我想允许用户通过拖动鼠标指针来选择同一级别的多个节点也称为套索选择我认为没有标准TreeView允许这样做我的问题是实现这一目标的最佳方法是什么我是否必须在自
Ansible 检查作为变量提到的安装的磁盘空间

我是 ansible 的新手目前正在开发一个游戏该游戏将查看远程计算机的磁盘空间是否已达到 70 的阈值如果他们已经达到了它应该抛出错误我在以下位置找到了一个很好的例子使用ansible管理磁盘空间 https stackove
脚本缩小和与 MSBuild 的持续集成

在我最近使用 C ASP NET 进行的一个项目中我有一些相当复杂的 JavaScript 文件和一些漂亮的样式表随着这些脚本资源规模的增长建议减少资源 http developer yahoo com yui compressor 当
将 this.refs 作为 React.js 中 jsx 的属性传递

我试图将 1 个节点作为另一个 React 组件的属性传递如下所示 render function return div div div div
在 Mac OSX 上卸载 Redis。安装更新后正在运行旧版本

在Mac上如何找到旧版本的Redis并将其完全卸载我使用 OSX 并使用以下命令安装 Redisbrew install redis 由brew安装的版本状态redis 3 0 7 但是当我运行命令时 redis server输出表明
如何修复“超出最大调用堆栈大小”AngularJS

我正在使用 AngularJs 和 Ui Router 我试图设置两个不同的主页一个用于已登录的用户另一个用于未登录的用户但我收到以下错误 RangeError Maximum call stack size exceeded I r
如何为 VS 扩展嵌套工具菜单按钮？

我正在构建我的第一个 VS 扩展因此我目前在该领域的技能相当于遵循教程和提出问题该扩展用于加密解密一部分web configWeb 应用程序项目的文件我有 2 个命令目前按钮设置在 vsct文件如下
无法安装或运行应用程序 - System.Windows.Interactivity 版本 4.0.0.0

我完全被困住了搜索了又搜索了我有一个对 System Windows Interactivity 版本 4 5 0 0 的引用当我通过 ClickOnce 释放系统时系统未安装并报告以下错误无法安装或运行该应用程序该应用程序需要
React-router-dom (v6) 与 Framer Motion (v4)

我正在尝试将我的react router dom更新到v6 但它似乎会导致成帧器运动AnimatePresence出现问题特别是退出过渡在 App js 中 import Routes Route from react router d
将项目添加到 Listview 控件

我有一个listview在 C 中具有三列视图是详细信息我需要向每个特定列添加一个项目但我很难做到这一点我已经尝试了几件事这是我到目前为止所得到的感谢您提前提供的任何帮助 Add the pet to our listview
如何将上传的图像添加到对象数组中？

我正在创建一个专辑网站只是为了学习 Javascript 我有输入框来添加专辑的标题艺术家和年份当按下添加专辑时它会将此信息插入到名为 albumList 的对象上的数组中然后在列表元素中显示该信息我想知道是否可以允许用户上传
Angular2，TypeScript，如何读取/绑定属性值到组件类（在 ngOnInit 中未定义）[重复]

这个问题在这里已经有答案了有人可以建议我如何读取绑定属性值到 component 类这在 ngOnInit 方法中似乎未定义吗这是一个 plunker 演示 http plnkr co edit 4FoFNBFsOEvvOkyfn0
统计模型逻辑回归收敛问题

我正在尝试在大型设计矩阵约 200 列上的 statsmodels 中运行逻辑回归这些特征包括大量交互分类特征和半稀疏 70 整数特征虽然我的设计矩阵不是actually病态的似乎有些接近根据numpy linalg matr
kv 语言的 Kivy 屏幕管理器参考

我正在尝试制作一个主菜单让我在单击按钮时切换屏幕但我不知道如何从按钮引用管理器我有一个主菜单页面的设置在 kv 文件中
Rails // 白天按时区查询

在使用时区方面不太有信心在这方面寻求一些帮助我有一个 cron 作业每隔一段时间检查一次用户它调用 rake 任务在此 rake 任务中我查询用户并根据条件向每个用户发送一封电子邮件我有每个用户的时区信息我想对那些仅返回当前
Gnuplot BibTeX 引用

好吧这不是一个正确的编程问题但也许答案会对其他人有所帮助我一直在尝试寻找合适的 BibTeX 条目gnuplot 包含在科学出版物中我只是不想引用任何指南书而是引用实际的软件有谁有想法或曾经使用过吗我希望找到类似的东西cita
fread()：读取以 \r\r\n 作为换行符的表

我在文本文件中有制表符分隔的表其中所有行都以 r r n 0x0D 0x0D 0x0A 如果我尝试读取这样的文件fread 它说行结尾为 r r n R 的 download file 似乎添加了额外的 r 在 Windows 上的文本

fread()：读取以 \r\r\n 作为换行符的表

fread()：读取以 \r\r\n 作为换行符的表 的相关文章

随机推荐

热门标签

fread()：读取以 \r\r\n 作为换行符的表的相关文章