在 R 中对非常大的数据集（180 万行 x 270 列）进行建模

2024-03-29

我正在研究一个视窗8操作系统带有8 GB 内存。我有一个数据框180 万行 x 270 列我必须对其执行glm。（logit/任何其他分类）

我尝试使用 ff 和 bigglm 包来处理数据。

但我仍然面临错误的问题“Error: cannot allocate vector of size 81.5 Gb”。因此，我将行数减少到 10，并在 ffdf 类的对象上尝试了 bigglm 的步骤。但是该错误仍然存在。

任何人都可以建议我解决构建具有这么多行和列的分类模型这一问题吗？

**EDITS**:

I am not当我运行代码时使用任何其他程序。在我运行代码之前，系统上的 RAM 是 60% 空闲的，这是因为 R 程序。当我终止 R 时，RAM 80% 空闲。

我正在添加一些列我现在正在按照评论者的建议进行复制。OPEN_FLG 是 DV其他的是IDV

str(x[1:10,])
'data.frame':   10 obs. of  270 variables:
 $ OPEN_FLG                   : Factor w/ 2 levels "N","Y": 1 1 1 1 1 1 1 1 1 1    
 $ new_list_id                : Factor w/ 9 levels "0","3","5","6",..: 1 1 1 1 1 1 1 1 1 1    
 $ new_mailing_id             : Factor w/ 85 levels "1398","1407",..: 1 1 1 1 1 1 1 1 1 1    
 $ NUM_OF_ADULTS_IN_HHLD      : num  3 2 6 3 3 3 3 6 4 4    
 $ NUMBER_OF_CHLDRN_18_OR_LESS: Factor w/ 9 levels "","0","1","2",..: 2 2 4 7 3 5 3 4 2 5    
 $ OCCUP_DETAIL               : Factor w/ 49 levels "","00","01","02",..: 2 2 2 2 2 2 2 21 2 2    
 $ OCCUP_MIX_PCT              : num  0 0 0 0 0 0 0 0 0 0    
 $ PCT_CHLDRN                 : int  28 37 32 23 36 18 40 22 45 21   
 $ PCT_DEROG_TRADES           : num  41.9 38 62.8 2.9 16.9 ...    
 $ PCT_HOUSEHOLDS_BLACK       : int  6 71 2 1 0 4 3 61 0 13    
 $ PCT_OWNER_OCCUPIED         : int  91 66 63 38 86 16 79 19 93 22    
 $ PCT_RENTER_OCCUPIED        : int  8 34 36 61 14 83 20 80 7 77    
 $ PCT_TRADES_NOT_DEROG       : num  53.7 55 22.2 92.3 75.9 ...    
 $ PCT_WHITE                  : int  69 28 94 84 96 79 91 29 97 79    
 $ POSTAL_CD                  : Factor w/ 104568 levels "010011203","010011630",..: 23789 45173 32818 6260 88326 29954 28846 28998 52062 47577    
 $ PRES_OF_CHLDRN_0_3         : Factor w/ 4 levels "","N","U","Y": 2 2 3 4 2 4 2 4 2 4    
 $ PRES_OF_CHLDRN_10_12       : Factor w/ 4 levels "","N","U","Y": 2 2 4 3 3 2 3 2 2 3    
 [list output truncated]

这就是example我正在使用的代码。

require(biglm)
mymodel <- bigglm(OPEN_FLG ~ new_list_id+NUM_OF_ADULTS_IN_HHLD+OCCUP_MIX_PCT, data = x)

require(ff)
x$id <- ffseq_len(nrow(x))
xex <- expand.ffgrid(x$id, ff(1:100))
colnames(xex) <- c("id","explosion.nr")
xex <- merge(xex, x, by.x="id", by.y="id", all.x=TRUE, all.y=FALSE)
mymodel <- bigglm(OPEN_FLG ~ new_list_id+NUM_OF_ADULTS_IN_HHLD+OCCUP_MIX_PCT, data = xex)

问题是我两次都遇到相同的错误”Error: cannot allocate vector of size 81.5 Gb".

请告诉我这是否足够，或者我应该提供有关该问题的更多详细信息。

我的印象是您没有使用 ffbase::bigglm.ffdf 但您想使用。也就是说，以下代码会将所有数据放入 RAM 中，并使用 biglm::bigglm.function，这不是您想要的。

require(biglm)
mymodel <- bigglm(OPEN_FLG ~ new_list_id+NUM_OF_ADULTS_IN_HHLD+OCCUP_MIX_PCT, data = x)

您需要使用 ffbase::bigglm.ffdf，它在 ffdf 上按块工作。因此加载导出 bigglm.ffdf 的包 ffbase。如果您使用 ffbase，则可以使用以下内容：

require(ffbase)
mymodeldataset <- xex[c("OPEN_FLG","new_list_id","NUM_OF_ADULTS_IN_HHLD","OCCUP_MIX_PCT")]
mymodeldataset$OPEN_FLG <- with(mymodeldataset["OPEN_FLG"], ifelse(OPEN_FLG == "Y", TRUE, FALSE))
mymodel <- bigglm(OPEN_FLG ~ new_list_id+NUM_OF_ADULTS_IN_HHLD+OCCUP_MIX_PCT, data = mymodeldataset, family=binomial())

解释：因为您不限制自己在模型中使用的列，所以您将在 RAM 中获得 xex ffdf 的所有列，这是不需要的。您在因子响应上使用高斯模型，奇怪吗？我相信您正在尝试进行逻辑回归，因此使用适当的家庭论证？它将使用 ffbase::bigglm.ffdf 而不是 biglm::bigglm.function。

如果这不起作用 - 我对此表示怀疑，那是因为 RAM 中还有其他您不知道的东西。在这种情况下就这样做。

require(ffbase)
mymodeldataset <- xex[c("OPEN_FLG","new_list_id","NUM_OF_ADULTS_IN_HHLD","OCCUP_MIX_PCT")]
mymodeldataset$OPEN_FLG <- with(mymodeldataset["OPEN_FLG"], ifelse(OPEN_FLG == "Y", TRUE, FALSE))
ffsave(mymodeldataset, file = "mymodeldataset")

## Open R again
require(ffbase)
require(biglm)
ffload("mymodeldataset")
mymodel <- bigglm(OPEN_FLG ~ new_list_id+NUM_OF_ADULTS_IN_HHLD+OCCUP_MIX_PCT, data = mymodeldataset, family=binomial())

然后你就走吧。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 R 中对非常大的数据集（180 万行 x 270 列）进行建模的相关文章

R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
从 data.frame 创建新列

我有一个长格式的数据集其中测量时间嵌套在 Networkpartners NP 中而 Networkpartners NP 又嵌套在人员 ID 中下面是它的示例真实数据集有数千行 ID NP Time Outcome 1 11
使用facet时ggplot2控制每行的面板数量？

Is it possible to control the number of panels per row in a ggplot I can only get an equal number of panels on each row
在 r 中的 unique() 函数中使用管道不起作用

我在使用管道运算符 gt 和 unique 函数时遇到一些麻烦 df data frame a c 1 2 3 1 b a unique df a no problem here df gt unique a not working her
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
如何从类外部更改公共 R6 类方法？

我希望能够在我的 R6 类中重新定义公共方法以便它根据该类保存的数据类型进行更改如下所示 library R6 Simple lt R6Class Simple public list dt mtcars my print functi
用于更改向量中元素顺序的闪亮小部件

在很多网站上您都有一个拖放界面来更改列表中元素的顺序我正在寻找类似的东西闪亮我希望用户能够拖放列表中的元素通过更改顺序来更改优先级现在我有一个滥用的解决方案selectizeInput 这是可行的但当选择列表变得更大时它很快就
如何在ggplot2中使用希腊符号？

我的类别需要用希腊字母命名我在用ggplot2 并且它与数据配合得很好不幸的是我无法弄清楚如何将这些希腊符号放在 x 轴上在刻度线处并使它们出现在图例中有什么办法可以做到吗更新我看了一下link https github c
R 的 dplyr 切片中的奇怪行为

打电话时slice df i 在 R 的 dplyr 包中如果我要求的行索引不存在 nrows lt i 它似乎返回除组中的第一行之外的所有行就像我调用的那样slice df 1 例如 library dplyr c1 lt c a b
将函数应用于每个列组合

我有一个数据框n列并希望对每个列应用一个函数组合列这与如何cor 函数将数据帧作为输入并生成相关矩阵作为输出例如 X lt data frame A rnorm 100 B rnorm 100 C rnorm 100 cor X 这将生
r 连接两个列表并对它们的值求和

我有两个列表 x y gt x carlo monte simulation model quantum 31 31 9 6 6 gt y model system temperature quantum simulation proble
如何用月份的全名替换数字月份

使用 tidyverse 包将月份的列更改为完整的实际月份名称请记住尽管这些数据只有四个月但我的真实数据集包含一年中的所有实际月份我是 tidyverse 的新手 mydata lt tibble camp c Platinum 2
R 中使用 randomForest 进行内存高效预测

TL DR我想知道使用基于大型数据集数百个特征数十万行构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
R 中的 Mapdeck 包 - add_grid 似乎未渲染任何内容

Problem The add gridR 中的函数mapdeck包很精彩然而遵循CRAN 文档 https cran r project org web packages mapdeck mapdeck pdf 我似乎无法获得任何数据
R中的等值线绘图问题

编辑我已经意识到问题的根源我只有我有数据的县的计数信息该信息少于我正在绘制的区域中的县数量按理说问题代码行在这里 mapnames lt map county plot FALSE 4 names colorsmatched lt
计算数据框中每一行的 R 条件运行总和

我想创建一个等于 data Rating 的运行总和的列假设第 3 列和第 4 列中有两个条件成立特别是 data Year 换句话说这应该计算直到上一年为止每个 id 的评分累积总和它应该对数据框中的每一行大约 50 000 行
如何在knitr中安装软件包？

到目前为止我一直在使用这段代码来加载 R 包并编写 R 文件但我正在尝试使用knitr rm list ls all TRUE kpacks lt c ggplot2 install github devtools mapdata ne
访问动态创建的 Shiny 模块的返回值

我正在寻找构建一个闪亮的应用程序它动态创建返回简单表单的模块通过 callmodule 我有两个未解决的问题希望得到一些指导首先当向用户提供多个表单通过单击按钮时先前呈现的表单上的值将恢复为默认值如何停止这种行为以便值保
dplyr 总结小计

Excel 中数据透视表的一大优点是它们会自动提供小计首先我想知道 dplyr 中是否已经创建了任何可以实现此目的的东西如果没有实现它的最简单方法是什么在下面的示例中我按气缸和化油器的数量显示了平均排量对于每组气缸 4 6 8
R 编程中的字符串分割

目前下面的脚本将组合的项目代码拆分为特定的项目代码 rule2 lt c MR df 1 lt test grep paste rule2 sep collapse test Name y SpaceName 1 lt function

随机推荐

当我尝试在字符串上使用 `json.load` 时，为什么会出现“'str' object has no attribute 'read'”？ [复制]

这个问题在这里已经有答案了在 Python 中我收到一个错误 Exception
没有姓名或地址。 CBCentralManager 不再在 macOS 12 上运行

自从我将 macOS 更新到 macOS 12 以来我每次在使用 CoreBluetooth 时都会遇到问题在我的一个应用程序中我将使用以下命令列出所有 BLE 设备CGCentralManager class 这已经有效多年了但现
如何使用 nhibernate 通过递归自连接 SQL 获得最佳性能

我有一个带有parentId 的团队表实体它是一个自我加入到同一个表中的id 有一个名为 TopUnit 的属性它将递归地继续调用 Parent 直到在 Team 实体上找到名为 IsTopUnit 的属性使用 nhibernate
如何制作基于Web的Python交互式shell

网站如何喜欢https www pythonanywhere com try ipython https www pythonanywhere com try ipython work 他们可能会做几个exec命令或与 ipython 交
使用 WSGI 和 Python 3 提供静态文件

使用 WSGI 和 Python 3 2 提供静态文件的最简单方法是什么有一些用于 PEP 333 和 Python 2 的 WSGI 应用程序用于此目的但是关于 PEP 3333 和 Python 3 的吗我想使用 wsgiref
R：如何从数据框中获取正确的乳胶回归表？

考虑下面的例子 inds lt c var1 var2 model1 lt c 10 2 0 00 0 02 0 3 model2 lt c 11 2 0 01 0 02 0 023 df df data frame inds model1
如何创建接受泛型的无状态功能组件？

Typescript 泛型可用于扩展接口 interface Sample1 p prop1 P interface Sample2 p p extends Sample1 p p prop2 string 但是当我尝试创建一个使用通用接口
如何更改 JTextArea 中的文本颜色？

我需要知道如何做到这一点比方说我有一个代码JTextArea像这样 LOAD R1 1 DEC R1 STORE M R1 ADD R4 R1 8 我想改变颜色LOAD DEC STORE and ADD涂成蓝色R1 R4涂成绿色M变为
在 VBA 中将日期转换为文本

我有一个数据集其中包含文本值例如 2016 年 3 月现在我编写了以下代码来在我的报告表中复制此内容 DataFin Range E9 E9 DateSerial Year Date Month Date 0 DataFin Rang
Jackson JSON、不可变类和接口

我正在使用 Jackson 的示例并且在反序列化与不可变的类和接口一起使用时遇到了一些麻烦下面是我的代码 package com art starter jackson starter import java io IOExceptio
为什么在 Resharper/MSTest 下调试时引用的 dll 被锁定？

我对汇编中的方法进行了集成测试A 集会A参考汇编B通过项目参考我在 Resharper 6 1 单元测试场景中的 Visual Studio 2010 调试器下运行它们测试引擎是微软原生的MSTest 我得到了臭名昭著的该进程无法访问
如何捕获 TimeConstrained 产生的中断？

数学有CheckAbort允许捕获和处理用户生成的和编程的函数Aborts 但它不允许捕获由以下函数生成的中断TimeConstrained and MemoryConstrained TimeConstrained CheckAbort
M2Crypto：验证 DSA 签名

我在使用 Python M2Crypto 验证 DSA 签名时遇到问题签名是在 Java 中使用标准 java security Signature 类以及 Sun 的加密提供程序和 SHA1withDSA 算法指定生成的这是一些 sh
使用 SqlCommand 返回值

我正在尝试获取 SQL 2008 服务器上存储过程的结果集和返回值当我在sql management studio中运行proc时我得到结果集和返回值但是当我尝试获取 C 4 0 中的值时参数的值为 null 这是我的 C 代码
通过 Grails 域标准在活动光标中出现 Mongo CursorNotFound 异常

我正在使用 Grails 2 4 4 mongo 插件 3 0 2 MongoDB 2 4 10 使用远程数据库连接 grails mongo host 11 12 13 14 A remote server IP port 27017 d
如何实现Flood-fill算法？

我正在开发一个 Paint 应用程序其中我正在实现类似于 MS Paint 应用程序的 BucketFill 功能我使用一些 FloodFill 算法对其进行了编码但填充颜色过程花费了太多时间我不太确定其背后的原因可能是由于缓存内存
标签文本中的 RGB 颜色效果，tkinter python

您好我只是在尝试一些代码我正在尝试更改标签内文本的颜色如物理键盘中的 rgb 颜色效果使用以下代码我确实改变了颜色但我正在尝试实现的目的是改变文本每个字母的颜色但我不知道该怎么做下面是我写的代码 import tkinter
如何使用 WiX 将交互式用户添加到本地化 Windows 中的目录？

如何添加瑞典语交互式用户 NT INSTANS INTERAKTIV 或英文交互用户 NT AUTHORITY INTERACTIVE 或任何其他本地化用户组write程序文件夹 ACL 的权限这个问题实际上是我如何使用安全对象我无法
在 AWS RDS 实例之间移动数据

我需要在两个不同的 rds 实例上的相同 mysql 数据库之间移动数百万行我想到的方法是这样的 use data pipeline to export data from the first instance to amazon s3
在 R 中对非常大的数据集（180 万行 x 270 列）进行建模

我正在研究一个视窗8操作系统带有8 GB 内存我有一个数据框180 万行 x 270 列我必须对其执行glm logit 任何其他分类我尝试使用 ff 和 bigglm 包来处理数据但我仍然面临错误的问题 Error cannot a

在 R 中对非常大的数据集（180 万行 x 270 列）进行建模

在 R 中对非常大的数据集（180 万行 x 270 列）进行建模 的相关文章

随机推荐

热门标签

在 R 中对非常大的数据集（180 万行 x 270 列）进行建模的相关文章