read.csv 警告“带引号的字符串内的 EOF”阻止完整读取文件

2023-11-24

I have CSV 文件 (24.1 MB)我无法完全读懂我的 R 会话。当我在电子表格程序中打开该文件时,我可以看到 112,544 行。当我将其读入 R 时read.csv我只收到 56,952 行和此警告:

cit <- read.csv("citations.CSV", row.names = NULL, 
                comment.char = "", header = TRUE, 
                stringsAsFactors = FALSE,  
                colClasses= "character", encoding= "utf-8")

Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  EOF within quoted string

我可以将整个文件读入 R 中readLines:

rl <- readLines(file("citations.CSV", encoding = "utf-8"))
length(rl)
[1] 112545

但我无法将其作为表格返回到 R 中(通过read.csv):

write.table(rl, "rl.txt", quote = FALSE, row.names = FALSE)
rl_in <- read.csv("rl.txt", skip = 1, row.names = NULL)

Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  EOF within quoted string

我该如何解决或解决此 EOF 消息(这似乎更像是错误而不是警告)以将整个文件放入我的R会议?

我在使用其他读取 CSV 文件的方法时也遇到类似的问题:

require(sqldf)
cit_sql <- read.csv.sql("citations.CSV", sql = "select * from file")
require(data.table)
cit_dt <- fread("citations.CSV")
require(ff)
cit_ff <- read.csv.ffdf(file="citations.CSV")

这是我的 sessionInfo()

R version 3.0.1 (2013-05-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252   
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] tools     tcltk     stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] ff_2.2-11             bit_1.1-10            data.table_1.8.8      sqldf_0.4-6.4        
 [5] RSQLite.extfuns_0.0.1 RSQLite_0.11.4        chron_2.3-43          gsubfn_0.6-5         
 [9] proto_0.3-10          DBI_0.2-7   

您需要禁用引用。

cit <- read.csv("citations.CSV", quote = "", 
                 row.names = NULL, 
                 stringsAsFactors = FALSE)

str(cit)
## 'data.frame':    112543 obs. of  13 variables:
##  $ row.names    : chr  "10.2307/675394" "10.2307/30007362" "10.2307/4254931" "10.2307/20537934" ...
##  $ id           : chr  "10.2307/675394\t" "10.2307/30007362\t" "10.2307/4254931\t" "10.2307/20537934\t" ...
##  $ doi          : chr  "Archaeological Inference and Inductive Confirmation\t" "Sound and Sense in Cath Almaine\t" "Oak Galls Preserved by the Eruption of Mount Vesuvius in A.D. 79_ and Their Probable Use\t" "The Arts Four Thousand Years Ago\t" ...
##  $ title        : chr  "Bruce D. Smith\t" "Tomás Ó Cathasaigh\t" "Hiram G. Larew\t" "\t" ...
##  $ author       : chr  "American Anthropologist\t" "Ériu\t" "Economic Botany\t" "The Illustrated Magazine of Art\t" ...
##  $ journaltitle : chr  "79\t" "54\t" "41\t" "1\t" ...
##  $ volume       : chr  "3\t" "\t" "1\t" "3\t" ...
##  $ issue        : chr  "1977-09-01T00:00:00Z\t" "2004-01-01T00:00:00Z\t" "1987-01-01T00:00:00Z\t" "1853-01-01T00:00:00Z\t" ...
##  $ pubdate      : chr  "pp. 598-617\t" "pp. 41-47\t" "pp. 33-40\t" "pp. 171-172\t" ...
##  $ pagerange    : chr  "American Anthropological Association\tWiley\t" "Royal Irish Academy\t" "New York Botanical Garden Press\tSpringer\t" "\t" ...
##  $ publisher    : chr  "fla\t" "fla\t" "fla\t" "fla\t" ...
##  $ type         : logi  NA NA NA NA NA NA ...
##  $ reviewed.work: logi  NA NA NA NA NA NA ...

我认为是因为这种线条(检查“刺”和“减”)

 readLines("citations.CSV")[82]
[1] "10.2307/3642839,10.2307/3642839\t,\"Thorn\" and \"Minus\" in Hieroglyphic Luvian Orthography\t,H. Craig Melchert\t,Anatolian Studies\t,38\t,\t,1988-01-01T00:00:00Z\t,pp. 29-42\t,British Institute at Ankara\t,fla\t,\t,"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

read.csv 警告“带引号的字符串内的 EOF”阻止完整读取文件 的相关文章

随机推荐

  • [] 和 {} 与 list() 和 dict() 相比,哪个更好? [关闭]

    Closed 这个问题是基于意见的 目前不接受答案 我知道它们本质上是同一件事 但就风格而言 哪一个用于创建空列表或字典更好 更Pythonic 就速度而言 它与空列表 字典没有竞争 gt gt gt from timeit import
  • Python BigQueryallowLargeResults 与 pandas.io.gbq

    我想使用用于读取 BigQuery 的 Pandas 库数据 如何允许较大的结果 对于非 Pandas BigQuery 交互 可以这样实现this Pandas 的当前代码 sProjectID project id sQuery SEL
  • 使用 ASP.Net 实现多语言网站

    我正在使用 ASP Net 实现一个多语言网站 语言为英语 法语和阿拉伯语 请注意 阿拉伯语的方向是 RTL 实施多语言支持的最佳方式是什么 我计划使用 Net 本地化功能 但网站文本存储在数据库中 对于控件 表单控件 我可以使用 resx
  • 跟踪栏仅在最终值上触发事件,而不会在时间值发生变化时触发事件

    我正在开发一个非常基本的 C Visual Studio 表单应用程序 但在让轨迹栏按照我想要的方式运行时遇到一些问题 因此希望社区中的某个人可以为此提供解决方案 我所拥有的是一个非常基本的应用程序 主要部分是一个值为 0 到 100 的轨
  • 解释 GetKeyState / GetCursorPos 的错误

    有时我会收到客户的错误报告 但我无法解释 在 Delphi 中的 Application Run 之后 我收到以下错误 EOSError System error Code 5 Access denied Call Stack Inform
  • 查找已排序数组中不重复的元素

    资料来源 微软面试问题 是的 您可以使用排序来降低复杂性O log n 通过二分查找 由于数组已排序 因此在缺失元素之前 每个值都占据位置2 k and 2 k 1在数组中 假设从 0 开始索引 所以你转到数组的中间 比如索引h 并检查任一
  • oracle中执行存储过程后是否会发生自动提交?

    我在oracle DB中有3个表 我正在编写一个程序来根据某些条件删除所有 3 个表中的一些行 我在程序中一一使用了所有三个删除语句 在执行上述存储过程时 执行时是否发生自动提交 否则 我是否需要在最后手动编码提交 数据库级别没有自动提交
  • SQL 选择不同的子字符串,就像搞乱了如何

    我有一个表 其中的字段与此类似 ANIMAL FISH 54 FISH 30 DOG 12 CAT 65 CAT 09 BIRD 10 FISH 31 DOG 10 该领域稍后可能会添加新的动物 例如 GOAT 72 DOG 20 我想做的
  • 如何跨模块存储应用程序设置[重复]

    这个问题在这里已经有答案了 我收到了一个离开我们公司的开发人员的项目 不太复杂 但看起来不太好看 所以问题是 应用程序有一些模块 其中一个是存储一些应用程序的 设置 选项 不是所有可能的选项 只说两个 foo and bar 当应用程序启动
  • 为什么lua中的某些平台第一个随机数总是相同?

    考虑以下 lua 代码片段 local time os time for 1 10 do time time 1 print Seeding with time math randomseed time for i 1 5 do print
  • 对象字段更改时的 LiveData 更新

    我将 Android MVVM 架构与 LiveData 结合使用 我有一个这样的对象 public class User private String firstName private String lastName public St
  • 复制 Jupyter Notebook Pandas 数据框 HTML 打印输出

    我正在尝试将 jupyter 在笔记本中用于 pandas 数据框的输出复制到 html css js 以便 Flask 可返回jsonify作为我稍后在 AJAX 调用中使用的 html I found this and this 建议使
  • 无法使用 start-dfs.sh 启动守护进程

    我们使用的是 cloudera 的 cdh4 0 0 发行版 我们无法使用以下命令启动守护程序 gt start dfs sh Starting namenodes on localhost hduser localhost s passw
  • Meteor.js 可以使用 Cassandra 而不是 MongoDB 吗? [关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 我正在启动一个创建客户支持系统的项目 对于这个系统我看过Meteor js 看起来很有趣 问题是我们想使用构建系统的其余部分卡桑德拉 所以我的问题如下 meteor js 也可以与
  • Spring Boot 1.5.2 - Web 应用程序在加载徽标后停止?

    我在使用 Spring Boot 时遇到了一个非常奇怪的问题 我不知道为什么使用 Spring Boot 的 Web 应用程序无法启动 并且即使我直接在终端上运行它也没有输出错误 java jar var lib tomcat webapp
  • 读取带有动态键字段的表?

    我有一张桌子的名字DATA lv tablename TYPE tabname VALUE xxxxx 和一个通用的FIELD SYMBOLS
  • 激活资源过滤后编码错误

    我正在开发一个基于 Maven 的网络项目 在我的网络模块中 我使用不同语言的特定资源包 德语 西班牙 我的所有源代码均基于 UTF 8 一切正常 现在需要根据不同的maven配置文件激活maven资源过滤来替换一些配置 我的 pom xm
  • 通过表达式在变量中设置 SSIS 包中昨天的日期

    我正在设置一个变量SSIS包 我正在使用这个表达式 DATEPART yyyy GETDATE 10000 DATEPART month GETDATE 100 DATEPART day GETDATE 该表达式将为我提供一个变量值 例如
  • 如何将 String 转换为 BeautifulSoup 对象?

    我正在尝试抓取新闻网站 并且需要更改一个参数 我将其更改为替换为下一个代码 while i lt len links conn urllib urlopen links i html conn read soup BeautifulSoup
  • read.csv 警告“带引号的字符串内的 EOF”阻止完整读取文件

    I have CSV 文件 24 1 MB 我无法完全读懂我的 R 会话 当我在电子表格程序中打开该文件时 我可以看到 112 544 行 当我将其读入 R 时read csv我只收到 56 952 行和此警告 cit lt read cs