在 R 中导入 csv 文件/从整数转换为双精度时出现问题

2024-02-17

今天我终于决定开始攀登 R 陡峭的学习曲线。我花了几个小时，成功导入了数据集并做了一些其他基本的事情，但我在数据类型方面遇到了问题：包含小数的列作为整数导入，转换为双精度会更改值.

在尝试获取一个小的 csv 文件放在这里作为示例时，我发现仅当数据文件太大时才会出现此问题（我的原始文件是一个 1048418 x 12 矩阵，但即使“只有”5000 行，我也遇到同样的问题。当我只有 100、1000 甚至 2000 行时，列会正确导入为双精度）。

Here http://dl.getdropbox.com/u/1885087/exampleshort.csv是一个较小的数据集（仍然是 500kb，但同样，如果数据集很小，则不会复制问题）。代码是

> ex <- read.csv("exampleshort.csv",header=TRUE)
> typeof(ex$RET)
[1] "integer"

当文件很大且显然是 double 类型时，为什么返回列会作为整数导入？

最糟糕的是，如果我尝试将其转换为双精度，值就会改变

> exdouble <- as.double(ex$RET)
> typeof(exdouble)
[1] "double"

> ex$RET[1:5]
[1] 0.005587  -0.005556 -0.005587 0.005618  -0.001862
2077 Levels: -0.000413 -0.000532 -0.001082 -0.001199 -0.0012 -0.001285 -0.001337 -0.001351 -0.001357 -0.001481 -0.001486 -0.001488 ... 0.309524

> exdouble[1:5]
[1] 1305  321  322 1307   41

这不是唯一导入错误的列，但我认为如果我找到一列的解决方案，我应该能够对其他列进行排序。以下是更多信息：

> sapply(ex,class)
PERMNO      DATE    COMNAM     SICCD       PRC       RET      RETX    SHROUT    VWRETD    VWRETX    EWRETD    EWRETX 
"integer" "integer"  "factor" "integer"  "factor"  "factor"  "factor" "integer" "numeric" "numeric" "numeric" "numeric"

它们应该按以下顺序排列：整数，日期，字符串，整数，双精度，双精度，双精度，整数，双精度，双精度，双精度，双精度（类型可能是错误的，但希望你能明白我的意思）

请参阅 read.csv 的帮助：?read.csv。这是相关部分：

colClasses: character.  A vector of classes to be assumed for the
          columns.  Recycled as necessary, or if the character vector
          is named, unspecified values are taken to be ‘NA’.

          Possible values are ‘NA’ (the default, when ‘type.convert’ is
          used), ‘"NULL"’ (when the column is skipped), one of the
          atomic vector classes (logical, integer, numeric, complex,
          character, raw), or ‘"factor"’, ‘"Date"’ or ‘"POSIXct"’.
          Otherwise there needs to be an ‘as’ method (from package
          ‘methods’) for conversion from ‘"character"’ to the specified
          formal class.

          Note that ‘colClasses’ is specified per column (not per
          variable) and so includes the column of row names (if any).

祝你学习 R 顺利。这很困难，但在你通过前几个阶段后会很有趣（我承认这确实需要一些时间）。

尝试这个并相应地修复其他的：

ex <- read.csv("exampleshort.csv",header=TRUE,colClasses=c("integer","integer","factor","integer","numeric","factor","factor","integer","numeric","numeric","numeric","numeric"), na.strings=c("."))

正如 BenBolker 指出的那样，colClasses争论可能是不需要的。但是，请注意，使用colClasses参数可以使操作更快，尤其是对于大型数据集。

na.strings必须指定。请参阅以下部分?read.csv:

 na.strings: a character vector of strings which are to be interpreted
      as ‘NA’ values.  Blank fields are also considered to be
      missing values in logical, integer, numeric and complex
      fields.

仅供参考（这不应该用作解决方案，因为最好的解决方案是一步正确导入数据）：RET未作为整数导入。它被导入为factor。供将来参考，如果您想转换factor to a numeric, use

new_RET <-as.numeric(as.character(ex$RET))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

在 R 中导入 csv 文件/从整数转换为双精度时出现问题的相关文章

如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr
R：在函数中包含循环？

以下代码可用于创建一个 data frame 其中 Kendall Tau 和 Spearman 相关结果彼此相邻 data mtcars mtcars correlation lt function x y df1 cor data fr
当子集长度为零时，如何简洁地处理子集？

从向量中排除元素x x lt c 1 4 3 2 我们可以减去位置向量 excl lt c 2 3 x excl 1 1 2 这也是动态工作的 excl lt which x which max x gt quantile x 25 1 2
创建序列组合

我正在尝试解决以下问题考虑 5 个简单序列 0 100 100 0 rep 0 101 rep 50 101 rep 100 101 我需要 3 个数字变量的集合它们的所有组合都具有上述序列由于有 5 个序列和 3 个变量因此可以有
根据共同值对两个数据帧求和

我有一个看起来像的数据框 day of week count 1 0 3 2 3 1 3 4 1 4 5 1 5 6 3 另一个喜欢 day of week count 1 0 17 2 1 6 3 2 1 4 3 1 5 4 5 6 5
for 循环与 cor.test 在许多类别上

我正在尝试在 R 中编写一个循环它将循环遍历 3 个不同的物种以计算两个连续变量 Redness 和 VarNormAbund 之间的相关性我的循环正在运行但 3 个物种中每一个的输出都是相同的这让我认为循环卡在第一个物种上 co
在 R Shiny 中显示/隐藏整个框元素

我目前正在尝试找到一种方法来隐藏显示 R Shiny 中的整个 box 元素以及里面的所有内容我想创建一个可能的按钮它允许用户展开特定框然后使用相同甚至不同的按钮隐藏它我不想使用条件面板因为我的应用程序非常大并且会产生一些
如何根据查找表匹配多列

我有以下两个数据框 lookup lt data frame id c A B C price c 1 2 3 results lt data frame price 1 c 2 2 1 price 2 c 3 1 1 我现在想要浏览所有列
在 ggplot 中过滤管道 df

我正在使用 dplyr 管道来清理我的 df 然后直接输入到 ggplot 中但是我只想一次只绘制一组因此我需要过滤到该组问题是我希望比例保持不变就好像所有群体都存在一样是否可以在 ggplot 命令中进一步过滤管道 df 例
如何处理包内部的 R 数据？

我正在开发的 R 包需要多个 R 数据对象例如预先计算的模型和参数目前我将包的数据目录中的每个对象放在单独的 RData 文件中使用该包时用户可以使用数据功能将这些对象附加到他们的环境中我想要的行为是在加载包时数据对
将数据框分成相等的部分

我有一个示例数据框 df lt data frame x 1 112 y runif 112 有没有办法打印数据框列表其中列表的第一部分包含行1 10 第二11 20等等直到最后 111 112 你可以使用split with rep
R markdown PDF：为测验者暂时隐藏剧透代码

我正在使用 R markdown 创建 PDF R 课程我想插入一个如下所示的测验 output pdf document What is the class of the following R object 1 pi r class
R List with sub-list：将与规则匹配的所有元素提取到数组中

我有一个 R 对象列表它们又是各种类型的列表我想要类别为内部的所有对象的成本值实现这一目标的好方法是什么如果我有一个数据框我会做类似的事情 my dataframe cost my dataframe category in
将 R 中的时间数据绘制为各种分辨率（分钟、小时、秒等）

我有一些 CSV 数据例如 Timestamp Count 2009 07 20 16 30 45 10 2009 07 20 16 30 45 15 2009 07 20 16 30 46 8 2009 07 20 16 30 46 6
在 ggplot2 上绘制世界地图

我一直在尝试在 ggplot2 上绘制世界地图我跟踪了电子邮件的线索带 l 的 ggplot 地图 https stackoverflow com questions 9558040 ggplot map with l但我确实遇到了同样
R 中的线性模型 - 乘法表达式

我有 3 个数值变量A B and C 我正在尝试创建一个能够预测的线性模型A 我使用的表达式是B C为了预测A 然而当查看输出时我无法得到我的方程因为我得到了额外的变量但我不知道它是什么这是我的代码 MyData lt read
如何更新 R 中的包？

我想将一个 R 包升级到已经可用的新版本我试过 update packages c R2jags 但它什么也没做控制台上没有输出没有错误什么也没有我使用了相同的语法install packages但也许我做错了什么我一直在看 u
在 Travis 上使用 devtools 安装 R 包时遇到问题

Travis CI 构建于drakeR包手册 https github com ropenscilabs drake manual 最近开始失败 https travis ci org ropenscilabs drake manual b
将其他数据集的点添加到ggplot2

关于这个主题已经有很多问题但我找不到能回答我的具体问题的问题我有一个barplot see testplot1 and testplot3如下绘制数据集 bardata如下并希望从另一个数据集向其添加点 pointdata 请参阅简
R：中断 for 循环

你能确认下一个break是否取消了内部for循环吗 for out in 1 n old id velho lt old table df id out for in in 1 n id novo lt new table df ID in

随机推荐

SQL Server 2008 T-SQL 功能不考虑兼容性级别

我无意中在一个脚本中使用了几个 SQL Server 2008 T SQL 功能该脚本包含一个将部署到众多客户数据库的函数其中一些将是 SQL 2005 违规言论的示例 create function dbo fnThisWontWor
为什么在本地服务器上使用 OPENQUERY 不好？

我正在编写一个脚本该脚本应该在一堆服务器上运行并从中选择一堆数据包括本地服务器选择我需要的数据所需的 SQL 非常复杂所以我正在编写一种临时视图并使用 OPENQUERY 语句来获取数据所以最终我最终会循环这样的语句 exec
如何在 Birt 设计器中对数据立方体进行切片？

我在 Birt 设计器中使用以下数据创建了一个数据立方体衡量标准营业额维度产品地点和时间我现在有一个三维 OLAP 数据立方体我想在二维数组中显示我的问题是我不知道如何为一维分配常量值例如 product computer
通过 msdeploy 发生 Azure Web App 部署错误 - ERROR_INSUFFICIENT_A CCESS_TO_SITE_FOLDER

我已经使用 msdeploy 部署到我的 Azure Web App 大约 4 个月了上传网站的一切都很顺利直到最近部署还没有出现任何错误现在我在发布网站应用程序时收到 ERROR INSUFFICIENT ACCESS TO S
解析是获取Member类型的唯一方法吗？

下面的反射代码返回 System Collections Generic IList 1 TestReflection Car Cars 我怎样才能得到Cars通过反射的根类型不是IList
ASP.NET MVC Razor 动态地为每列提供标头和视图

我现在有以下剃刀线 table border 1 cellpadding 3 cellspacing 1 tr th T rk e S z Dizisi th th English Word Sequence th th th tr for
Tomcat 管理器从不询问我的 ID/密码

我在 Amazon Linux EC2 实例上设置了 Apache Tomcat 9 0 0 M4 我完成了这样的编辑conf tomcat users xml
MVVM light 无法在 Windows 10 通用应用程序中工作

我尝试使用MVVM轻量级在我们的 Windows 10 通用应用程序中但它似乎完全无法工作我见过这个blog http blog galasoft ch posts 2015 03 using mvvmlight with window
如何在 Angular 7 中的页面加载上显示加载指示器，直到所有 api 响应？

我在一个页面中有 5 个 api 调用有些 api 需要 20 秒才能给出响应有些需要 30 秒才能给出响应有些需要 10 秒因此当第一个 api 给出响应时第一个 api 将加载指示器设置为 false 然后加载指示器消失但
R中的自动曲线拟合

是否有任何包可以使用许多简单模型自动拟合曲线我所说的简单模型是指 ax b ax 2 bx c a log x b a x n b 斧 1 bx ax n 1 bx n 最好的方法是有一个函数它接受两个向量参数 X 和 Y 并返回带有
重置后 --hard 所有未跟踪的文件都消失了

我在没有提交文件的情况下进行了 git 硬重置触发重置后我检查所有未跟踪的文件都消失了我预计它只会影响我们在提交期间所做的更改并且它只会重置这些更改但是我错了有什么方法可以恢复我所有未跟踪的文件吗任何帮助将非常非常感激 Tha
保留 Double 值的格式 - Java

我正在使用 Poi 在 Java 中创建 Excel 工作簿我的原始数据以字符串形式出现我需要格式化数据以在写入数字的单元格中输入两位小数我用Double parseDouble 将字符串转换为数字然后使用十进制格式将数字格式化为字
CLR 可以支持“函数指针”值类型吗？

前几天我问过为什么委托是引用类型 https stackoverflow com questions 7905962 why are delegates reference types 基于我的错误观念即委托所需的只是两个引用一个指向对
如何解决从UWP应用程序读取文件时权限被拒绝的问题？

我正在尝试在 UWP 应用程序中读取 C 或 D 驱动器的 txt 文件当我在资产中声明文件名的局部变量时这是可以的但它也可以从其他目录或驱动器中读取文件我已经尝试过像下面的代码部分 try String FileName C Us
为什么具有泛型类型的基本 Windows 窗体表单类会停止设计器加载？

我正在努力拥有一个基地Windows 窗体 http en wikipedia org wiki Windows Formsform 包含通用功能和控件但也包含对其方法需要类型的类的引用每种形式都代表不同的类型所以我认为我可以按照以下
Android：以编程方式检测设备是否连接了硬件触摸屏

我需要编写一个脚本来检测物理触摸屏在启动时是否连接到我的 Android 设备我试图列出文件夹的内容 dev input通过 adb 我获得以下输出 root q88 dev input ls event0 event1 event2 e
如何使用 JavaScript 以最佳方式渲染大量 DOM 元素？

在网页上我有一个相当大的项目列表例如产品卡每个项目都包含图像和文本大约有 1000 个我想在客户端上过滤此列表仅应显示那些未过滤掉的项目但存在渲染性能问题我应用了一个非常窄的过滤器只剩下 10 20 个项目然后取消它
摆脱天文学中的单位

我有一个大 262615 3 值的数组所有值都附加有单位具体源于这个函数 def coordconvert data from astropy coordinates import SkyCoord from astropy impor
如何在 iOS 上以编程方式将视图旋转 180 度？

如何在我的 iPhone 应用程序中以编程方式将视图旋转 180 度由于 CGAffineTransform Rotate 使用弧度作为测量单位并且 180 度与 PI 相同因此您可以简单地执行以下操作而不是其他答案中提供的数学 v
在 R 中导入 csv 文件/从整数转换为双精度时出现问题

今天我终于决定开始攀登 R 陡峭的学习曲线我花了几个小时成功导入了数据集并做了一些其他基本的事情但我在数据类型方面遇到了问题包含小数的列作为整数导入转换为双精度会更改值在尝试获取一个小的 csv 文件放在这里作为示例时我发现仅

在 R 中导入 csv 文件/从整数转换为双精度时出现问题

在 R 中导入 csv 文件/从整数转换为双精度时出现问题 的相关文章

随机推荐

热门标签

在 R 中导入 csv 文件/从整数转换为双精度时出现问题的相关文章