根据标题开始位置将 CSV 读入 R

2024-03-03

我有大量 CSV 文件。有些标题从第一行开始，有些标题从第三行开始，有些则从第七行开始，依此类推。

标题看起来都一样，只是在不同文件的不同行上开始。有没有办法有条件地读取 .csv 文件以从标题开始的位置开始？

例如，如果我知道标题都具有第一个列名称“office#”，我是否可以以某种方式指示 R 在第一次进入“office#”字段时开始读取 csv 文件并将该行视为标题？

I have 4 个 CSV 文件:

一张表的标题开始于row 1（虹膜.csv）

以及 3 个表头的开头为第 3、1 和 5 行（销售_1、销售_2、销售_3）

只要我知道第一列名称对于每个表，我可以使用smart_csv_reader函数来确定每个标头的开始位置，以及读取每个 CSV 文件的正确行号:

first_columns <- c('sepal.length', 'month', 'month', 'month')

smart_csv_reader <- function(directory) {
    header_begins <- NULL
    file_names <- list.files(directory, pattern=".csv$")
    for(i in 1:length(file_names)) {
        path <- paste(directory, file_names[i], sep='', col='')
        lines_read <- readLines(path, warn=F)
        header_begins[i] <- grep(first_columns[i], lines_read)
    } 
    print('headers detected on rows:')
    print(header_begins)
    l <- list()
    for(i in 1:length(header_begins)) {
        path <- paste(directory, file_names[i], sep='', col='')
        l[i] <- list(read.csv(path, skip=header_begins[i]-1))   
    }
    return(l)
}

只需传入目录所有 CSV 所在的位置。

Usage:

smart_csv_reader('some_csvs/')

[1] "headers detected on rows:"
[1] 1 3 1 5

正如你所看到的功能返回每个表的正确行号。它也是返回正确读取的每个表的列表:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

csv

根据标题开始位置将 CSV 读入 R 的相关文章

R 中的 huxtable 即使有选项也默认为科学记数法(scipen=999)

我试图生成像样的桌子并在过去的一周尝试了很多软件包我的头在游泳今天早上开始使用 package huxtable 并试图摆脱科学记数法 x lt mtcars 1 5 1 2 x mpg lt x mpg 10000000 get s
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
如何在r中进行左连接[重复]

这个问题在这里已经有答案了我有两个数据集一和二数据集一 a b c 111 a 1 112 b 2 113 c 3 114 d 4 115 e 5 数据集二 e d g 222 ss 11 111 ff 22 113 ww 33 114
使用 Ruby CSV 标头转换器

假设我有以下课程 class Buyer lt ActiveRecord Base attr accesible first name last name 以及 CSV 文件中的以下内容 First Name Last Name John
如何在RcppParallel中调用用户定义的函数？

受到文章的启发http gallery rcpp org articles parallel distance matrix http gallery rcpp org articles parallel distance matrix 我
在 R 中捕获段错误

我得到了caught segfault每次我尝试从以下位置运行任何绘图函数时都会出错ggplot2包 1 0 0 我已经尝试过这个qplot geom dotplot geom histogram等来自包的数据例如diamonds or
如何在 R 中创建循环来生成随机样本列表？

我正在尝试创建一个循环来创建一系列包含随机样本的对象如下所示 sample lt ceiling runif 9 min 0 max 20 这是圆形制服的示例但它可以替换为普通泊松或任何您想要的因此我构建了一个循环来自动生成各种生
使用开源闪亮服务器时，我的图标不会显示在我的应用程序的浏览器选项卡上

我一直在尝试找到一种方法将 ico 与托管在开源闪亮服务器上的闪亮应用程序的快捷方式关联起来最终我希望 ico 显示为我的应用程序快捷方式的图形而且我希望用户在创建应用程序的快捷方式时显示可用此图标听起来很简单但事实证明这是一
R 在读取文件时添加额外的数字

我一直在尝试读取一个包含日期字段和数字字段的文件我的数据在 Excel 工作表中如下所示 Date X 1 25 2008 0 0023456 12 23 2008 0 001987 当我在 R 中使用readxl read xlsx函
如何导入 .tsv 文件

我需要读取一个表 tsvR 中的文件 test lt read table file drug info tsv Error in scan file what nmax sep dec quote skip nlines na strin
如何替换R中的“意外转义字符”

当我尝试从 Facebook URL 的字符对象解析 JSON 时我收到 fromJSON data 中的错误位置 130 处出现意外的转义字符 o 看一下这个 library RCurl library rjson data lt g
通过删除连续的重复项来减少字符串长度

我有一个包含 2 个字段的 R 数据框 ID WORD 1 AAAAABBBBB 2 ABCAAABBBDDD 3 我想通过仅保留字母而不是重复中的重复项来简化具有重复字母的单词 e g AAAAABBBBB应该给我AB and ABCAA
R：install.packages 中出现错误：无法打开连接

我试图安装 RINDSEL 包但无法安装它并且不断收到以下错误 install packages 中出错无法打开连接我从以下位置下载了该软件包 rindsel 1 0 2 zip 综合养殖平台 http old ibpdev net
双向条形图，两侧带有正标签ggplot2

我尝试在 ggplot 中创建一个双向条形图其中轴上方和下方的轴标签和数据标签均为正值例如如果您的数据是 myData lt data frame category c yes yes no no month c Jan Feb Ja
如何拆分 data.frame -> 将合并应用于子集 -> 合并到 data.frame 中

我真的不知道如何在不使用 for 循环的情况下实现这一目标 x lt c a b c d gt x 1 a b c d data lt data frame x c a b a b c a a b c d name c one one tw
如何在主图区域之外的 ggplot2 中添加多个标题

我想为页脚添加两个标题但 ggplot 似乎只需要 1 是否有解决方法可以将注释或 geom text 添加到左下角和右下角 library ggplot2 p lt ggplot mtcars aes x wt y mpg geom p
如何更改数据表中的少数列名称

我有一个包含 10 列的数据表 town tc one two three four five six seven total 需要生成我正在使用的列一到总计的平均值 DTmean lt DT lapply SD mean by t
无法使用 cairo 安装 R

我正在从源代码安装 R cd R 3 2 2 configure prefix pwd with cairo yes with readline no with libpng yes with x no 我已经从源代码安装了 cairo v
用于带有嵌套子图的图的 r 包？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个用于图形网络的 r 包它可以处理嵌套子图 Graphviz 做到了这一点但只提供可
如何在R中绘制仪表图表？

如何在 R 中绘制以下图 Red 30 Yellow 40 Green 30 Needle at 52 所以这里有一个完整的ggplot解决方案注意从原始帖子中编辑在仪表中断处添加数字指示器和标签这似乎是OP在评论中所要求的如果不

随机推荐

CSS？这个箭头是怎么做出来的？

这让我发疯我一直在使用 Firefox 检查器来尝试找出这个箭头是如何在进展现场 http headwaythemes com 我通过检查器删除块来削减代码并将其简化为无论我在哪里检查我都可以not找到任何这样的形状没有背景图像
windows mingw下使用zlib

我似乎无法让 zlib 在 Windows 下的 mingw 上执行任何操作我下载了zlib http sourceforge net projects mingw files beta MinGW zlib zlib 1 2 3 1 m
设计在不同的屏幕上破碎[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我设计了一个网页其中很少有HTML元素没有响应这些元素是动态生成的jQuery我相信应该有一种方法可以让他们看起来反应灵敏 Me
如何针对 TextReader 使用正则表达式？

在可能非常大的文本中查找模式的最佳方法是什么我可以使用正则表达式但它接受字符串作为参数有没有办法将它与 TextReader 或某种流一起使用不正则表达式可能需要进行回溯由于流只能向前读取这意味着无论如何它都必须将整个流保
无法在 Docker 容器内从 Google API 交换 AccessToken

我有一个用 Go 编写的网络应用程序使用 oauth2 包golang org x oauth2 通过 Google 登录用户按照本教程操作https developers google com identity sign in web
Facebook API - uids 和电子邮件 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试开发一个应用程序用户 X 已登录 Facebook 应用程序有一组电子邮件地址可能是用户 X 的朋友应用程序获取用户
为什么要在 Objective C 构造函数中使用 [super init]？

假设我有一个名为 Item 的类它是 NewsItem 和 TwitterItem 的超类如果我想创建一些 NewsItem 我必须使用在构造函数内 self super init 如果是为什么在 Java C 中我会这样做 Ne
Flexbox 实现水平滚动

我正在使用 Flexbox 布局制作一个购物中心网站但 Flexbox 在某些区域会导致问题 Flexbox 似乎在某些区域进行水平滚动但我不希望这样您的问题是横幅中的图像太宽无法适应大多数视口因此它们迫使页面变宽没有简单的方法
在 R 中重复多个 NULL

在我的模拟中我需要一个如下所示的向量 vec NULL NULL NULL NULL 2 2 2 2 4 4 4 4 但是在 R 中当我使用rep NULL 4 它什么也不返回例如 vec all c rep NULL 4 rep
SwiftUI 垂直未对齐的文本

我有一些垂直未对齐的文本我不知道为什么代码 struct IBANInputView View State var securityDigits State var bankCode State var accountNumber va
CSS 动画在 Chrome 中不起作用

对项目的一些见解一个完整的交互式网站动画将在其中播放然后它们会停止一旦它们停止并且动画上发生鼠标悬停事件它将播放直到动画完成 70 当单击另一个对象时在本例中案例文本它将完成它的循环我的项目合作伙伴在 Google Web
语法与运算符结合性之间的关系

一些编译器书籍文章论文谈论语法的设计及其运算符的结合性的关系我是自上而下的忠实粉丝尤其是递归下降解析器到目前为止我编写的大多数如果不是全部编译器都使用以下表达式语法 Expr Term Term Term Factor Fa
适用于 emacs 的交互式拼写检查程序

我最近切换到 emacs24 并升级到 Ubuntu 12 04 我似乎无法让 hunspell 再次正常工作我发现 hunspell 总体上比 aspell 更好 Hunspell 只想使用澳大利亚词典而不是英语美国词典否则会冻结我的
如何将 selenium webelelements 转换为 python 中的字符串列表

我从 Scopus 网站收集了强制性数据我的输出已保存在名为文档的列表中当我对这个列表的每个元素使用 type 方法时 python 返回这个类
接受 Flask url 中的整数列表而不是一个整数

我的 API 有一个通过 url 中传递的 int id 来处理用户的路由我想传递一个 id 列表这样我就可以向 API 发出一个批量请求而不是多个单个请求我如何接受 id 列表 app route user
运行应用程序时，在 VSCode 中启动 ASP.NET Core 应用程序中的特定 URL

如果重要的话可以在 Mac 上运行在 Visual Studio 中您可以在运行或调试 ASP NET Core 项目时使用此方法启动特定 URL 使用 launchUrl 属性这是一个示例 launchSettings json
Laravel 按日期时间格式中的小时进行分组

如何按一天中的时间对网站上的注册进行分组我已经尝试过了但它不起作用 regs DB table registrations gt select createddatetime DB raw COUNT id gt groupBy D
如何访问 docker-compose 在 haproxy 配置中创建的副本

我有一个简单的 haproxy cfg 如下所示 frontend http bind 8080 mode http use backend all backend all mode http server s1 ws 8080 现在我有一
在 Haskell 中查找给定集合 A 和通用集合 U 的补集 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我尝试编写一个函数补集给定一个集合 A 和一个通用集 U 返回 A 相对于 U 的补集包装在 Just 类型构造函数中我必须仔
根据标题开始位置将 CSV 读入 R

我有大量 CSV 文件有些标题从第一行开始有些标题从第三行开始有些则从第七行开始依此类推标题看起来都一样只是在不同文件的不同行上开始有没有办法有条件地读取 csv 文件以从标题开始的位置开始例如如果我知道标题都具有第一个列

根据标题开始位置将 CSV 读入 R

根据标题开始位置将 CSV 读入 R 的相关文章

随机推荐

热门标签