使用 fread 读取分隔符长于一个字符的文本文件

2024-02-15

有没有办法获取data.tablefread读取带有分隔符的文本文件，例如"|||"?

我有一个文本文件（2GB），其中的行看起来像

aaa|||bbb|||random characters !$^!$£"!$ contain single |. |||other cols

如果无法使用fread，还有什么推荐吗？我会让他们进入data.table到底。

命令read_delim从包装中readr支持具有多个字符的分隔符。

我运行了一些基准测试（160 万行、30 列、350 mb txt 文件）。

我发现它比使用的解决方案快大约 40%strsplit通过以下方式：

do.call(rbind,strsplit(readLines('test.txt'),'~~~',fixed=T))

如果你安装gawk对于 Windows 并在 Windows 中设置适当的系统路径，您还可以执行以下操作：

fread("sed 's/|||/,/g' yourfile", sep = ',')

正如 eddi 在评论中所建议的那样。这比之前慢了大约 20%read_delim解决方案，因为它必须通过调用写入临时文件sed但比基本 R 解决方案更快。

最快的解决方案是将 fread 与sep = '|'并自行删除重复的列。如果您先验地知道它们在哪里，那么这种方法效果最好，否则可以计算出来（大概需要一些不小的时间成本）。

我无法得到fread and tstrsplit完成我的数据集，但你可能会有更好的运气。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

使用 fread 读取分隔符长于一个字符的文本文件的相关文章

汇总表中各列的字符值比例

在这种数据框中 df lt data frame w1 c A A B C A w2 c C A A C C w3 c C A B C B 我需要计算所有列中字符值的列内比例有趣的是以下代码适用于大型实际数据集但对上述玩具数据会引发错
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
读取R中打开的Excel文件

有没有办法将打开的Excel文件读入R 当Excel中打开一个excel文件时 Excel会对文件加锁比如R中的read方法无法访问该文件你能绕过这个锁吗 Thanks 编辑这发生在带有原始 Excel 的 Windows 下发生错
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
数据表中每一行的工具提示

这个问题尖叫着是重复的JSF 2 0 Primefaces 2 x 数据表行的工具提示 https stackoverflow com questions 9980155 jsf 2 0 primefaces 2 x tooltip for
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple
R- 将某些列从 0 标准化为 1，其值等于 0

我最近开始使用 are 我想扩展我的数据矩阵我在这里找到了一种方法在两点之间缩放系列 https stackoverflow com questions 5468280 scale a series between two points
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data

随机推荐

将准备好的语句的结果存储为mysql中的表？

是否可以将准备好的表的结果存储在mysql中我的用例是我根据源表的某些条件创建两个变量然后根据此条件获取随机行由于我有 10 个这样的表我是否应该第一个加入它们然后根据总体传递过滤标准进行随机化另请参阅下面的 total
使用 Python 进行迭代时出现 StaleElementException

我正在尝试为亚马逊结果创建一个基本的网络抓取工具当我迭代结果时有时会到达结果的第 5 页有时仅第 2 页然后是StaleElementException被抛出当我在抛出异常后查看浏览器时我可以看到驱动程序页面没有向下滚动到页码
Xcode 4 中没有外部库的符号/源

我的应用程序没有看到库的源代码如果我在库方法上跳转到定义 XCode 会将我带到 h 文件但说没有 cpp 对应项 When debugging I see no source code and most of the call st
在 NetLogo 中控制海龟的生命

在一个项目中我正在 NetLogo 中开发一个模拟来处理狗和人类的狂犬病我有一些乌龟人类和狗可以接种疫苗也可以不接种一开始我创造了一只患有狂犬病的狗根据疾病的阶段 1或2 它有一定的概率将疾病传播给其他狗最后狗可能会因瘫痪
如何在android中使用可见和不可见的按钮

我想让一个按钮不可见当我单击另一个按钮时不可见的按钮将变得可见然后执行onClick 对可见按钮执行的操作 What onClick 我可以在可见按钮上使用的操作我使用了如下所示的方法 donebutton Button findV
Javascript sort() 不能正确按字母顺序排列

var ccArray ccArray input checkbox name multiselect ddlCC sort 我可以说我得到了数组中所需的值但是在 sort 运行之后数组顺序发生了变化但不是按字母顺序排列我得到诸如
.NET 多线程：锁定时间过长时用日志锁定对象

在系统中我们有通过特定参数锁定对象的方法作为实现我们有带有 Enter 方法的 LockManager 该方法接收锁的密钥检查内部字典中是否存在锁对象如果不存在则创建它然后锁定我想要做的是为特定锁定设置 X 预期时间如果一个
将 SVN 存储库的一部分复制到新存储库？

目前我有一个大型 SVN 存储库其中包含许多不同的项目如下所示 Project1 trunk tags branches Project2 trunk tags branches Project3 etc 但是我现在尝试将其分解为单
如何在python中同时读取和处理多个文件

我有多个文件我想同时读取它们从每一行中提取一个数字并计算平均值对于少量文件我使用 itertools 模块中的 izip 来完成此操作这是我的代码 from itertools import izip import math g
FloatingActionButton 隐藏在列表滚动上

我正在使用FloatingActionButton来自android support design widget包裹
如何使 jQuery 插件函数可调用以供独立使用，而不对集合进行操作

我读了插件创作的 jquery 文档 http docs jquery com Plugins Authoring我对此很熟悉但是给出的示例始终对一组先前匹配的元素进行操作我想创建一个可以同时执行这两项操作的函数 example us
QGraphicsScene 子类忽略鼠标按下事件

我有一个 UI 和一个实现 mousePressEvent 的 QGraphicsScene 子类 GraphicsScene 但是鼠标单击被忽略 ui gt setupUi this scene new GraphicsScene thi
EF 代码首先批量插入

我需要使用 EF Code First 插入大约 2500 行我原来的代码看起来像这样 foreach var item in listOfItemsToBeAdded biz logic context MyStuff Add i 这花
React Material-UI 列搜索选择

我目前正在使用 Material UI 数据表并且有一个与此类似的搜索例程代码沙盒示例 https codesandbox io s material ui table search demo x3viu file demo tsx 这只
将正则表达式与 p:keyFilter 一起使用

我有一个p inputMask with a p keyFilter来匹配时间HH mm图案如下
使用groupby函数时如何将元素粘合到列表中？

我有一个数据框 df pd DataFrame A foo bar foo bar foo bar foo foo C np asarray 1 2 3 4 5 6 7 8 D np asarray 2 3 4 5 6 7 8 9 A C
带有 Xcode 11 beta 7 的 SwiftUI 未更新 List / ForEach 的内容

我一直在尝试一个简单的功能来将新条目添加到列表中该视图只会添加一个新生成的项目不需要用户输入 struct PeopleList View ObservedObject var people PersonStore var body
在 C++ 中实例化对象的正确方法是什么？

在 C 我使用 QT 中我可以通过两种方式创建 QString 类的实例 method 1 QString str my string method 2 QString str new QString my string 我知道这与指针有
如何根据 elasticsearch >= 5.5 中的术语位置对结果进行排序？

Since index在无痛脚本中不再可用因此过去通过访问术语偏移量来工作的解决方案 index in script score不要再像这里建议的那样工作了按 ElasticSearch 中的术语位置评分 https stackover
使用 fread 读取分隔符长于一个字符的文本文件

有没有办法获取data tablefread读取带有分隔符的文本文件例如我有一个文本文件 2GB 其中的行看起来像 aaa bbb random characters contain single other cols 如果无法使用fr

使用 fread 读取分隔符长于一个字符的文本文件

使用 fread 读取分隔符长于一个字符的文本文件 的相关文章

随机推荐

热门标签

使用 fread 读取分隔符长于一个字符的文本文件的相关文章