R 中的大型固定效应二项式回归

2023-12-26

我需要在一个相对较大的数据框架上运行逻辑回归，该数据框架包含 480.000 个条目和 3 个固定效应变量。固定效应 var A 有 3233 个级别，var B 有 2326 个级别，var C 有 811 个级别。所以总共我有 6370 个固定效果。数据是横截面数据。如果我无法使用正常运行此回归glm函数，因为回归矩阵对于我的记忆来说似乎太大了（我收到消息“Error: cannot allocate vector of size 22.9 Gb")。我正在寻找在我的 Macbook Air（OS X 10.9.5 8GB RAM）上运行此回归的替代方法。我还可以访问具有 16GB RAM 的服务器。

我尝试用几种不同的方式解决这个问题，但到目前为止都没有取得令人满意的结果：

lfe/felm: 使用 felm 回归函数lfe package http://cran.r-project.org/web/packages/lfe/lfe.pdf在运行回归之前减去固定效应。这非常有效，并允许我在短短几分钟内将上述回归作为正常的线性模型运行。然而，lfe不支持逻辑回归和glm。因此，felm 非常适合了解不同模型的模型拟合情况，但不适用于最终的逻辑回归模型。

比格勒姆: 我想过使用bigglm http://cran.r-project.org/web/packages/biglm/biglm.pdf将我的功能分解为更易于管理的块。然而，有几个来源（例如link1 https://stackoverflow.com/questions/10502882/r-biglm-with-categorical-variables, link2 https://stackoverflow.com/questions/24317418/model-run-with-glm-but-not-bigglm, link3 http://blog.revolutionanalytics.com/2014/05/quick-history-2-glms-r-and-large-data-sets.html）提到为了使其发挥作用，因子水平需要在块之间保持一致，即每个块必须至少包含每个因子变量的每个因子之一。因子 A 和 B 包含仅出现一次的级别，因此我无法将这些集合拆分为具有一致级别的不同块。如果我删除 10 个固定效应 A 的因子和 8 个 B 的因子（一个微小的变化），我将只剩下 4 个以上级别的因子，并且将我的数据分成 4 个块将使其更易于管理。然而，我仍然需要弄清楚如何对 df 进行排序，以确保我的 480.000 个条目被排序为 4 个块，其中 3 个因子中的每个因子的每个因子级别至少出现一次。

GLMMGS/GLMGS: The glmmgs http://cran.r-project.org/web/packages/glmmGS/glmmGS.pdf包中同名的函数执行固定效果减法，如下所示lfe使用“Gauss-Seidel”算法进行逻辑回归的包。不幸的是，该软件包已不再开发。作为 R 的新手，并且对统计没有深入的经验，我无法理解输出，也不知道如何以给我正常的“效果大小”、“模型拟合”、“的方式对其进行转换” glm 回归摘要提供的“显着性区间”指标。

我向该包的作者发送了一条消息。他们善意地回复如下：

该包不提供与 glm 对象格式相同的输出。然而，你可以轻松计算大部分拟合统计量（标准误差给定当前输出（在 CRAN 中）版本，我相信当前的输出是估计的向量系数和相关的标准误差向量；同样对于协方差分量，但如果您是没有随机效应的拟合模型）。只需要注意的是用于计算标准误差的协方差矩阵是与相关的精度矩阵的对角线块的逆 Gauss-Seidel 算法，因此他们倾向于低估联合似然的标准误。我不维护包不再长，我没有时间进入具体的细节;该包背后的开创性理论可以在手册中引用的纸张 http://www.stat.missouri.edu/~guhasu/gauss_seidel.pdf，其他一切都需要解决由您用笔和纸:)。

如果有人可以解释如何“轻松计算大部分拟合统计数据”，以便没有任何统计学教育的人可以理解它（可能是不可能的），或者提供 R 代码来显示如何完成此操作的示例，我会的多谢！

革命分析: 我在 Mac 上模拟 Windows 7 的虚拟机上安装了 Revolution Analytics Enterprise。该程序有一个函数叫做RxLogit针对大型逻辑回归进行了优化。使用RxLogit我得到的函数the error (Failed to allocate 326554568 bytes. Error in rxCall("RxLogit", params) : bad allocation)，所以这个函数似乎也遇到了内存问题。但是，该软件使我能够在分布式计算集群上运行回归。因此，我可以通过在具有大量内存的集群上购买计算时间来“解决问题”。然而，我想知道革命分析程序是否提供了任何我不知道的公式或方法，可以让我做某种lfe-类似固定效应减法运算或bigglm-类似考虑因素的分块操作。

矩阵模型/glm4: 一个人建议我使用glm4的功能MatrixModels包与sparse = TRUE属性来加速计算。如果我运行一个glm4具有所有固定效应的回归我得到"Error in Cholesky(crossprod(from), LDL = FALSE) : internal_chm_factor: Cholesky factorization failed“错误。如果我仅使用固定效应变量 B 或 A 和 C 运行它，则计算有效并返回"glpModel"目的。与glmmGS自标准以来，我在将该输出转换为对我有意义的形式时遇到一些问题summary()方法似乎不起作用。

我很乐意就上述任何问题提供建议，或者也很乐意就在 R 中运行带有内存限制的多个大型固定效应的逻辑回归的完全不同的方法提供建议。

查看

glmmboot{glmmML}

http://cran.r-project.org/web/packages/glmmML/glmmML.pdf http://cran.r-project.org/web/packages/glmmML/glmmML.pdf

Brostrom 和 Holmberg 还提供了一份很好的文档（http://cran.r-project.org/web/packages/eha/vignettes/glmmML.pdf http://cran.r-project.org/web/packages/eha/vignettes/glmmML.pdf)

这是他们文档中的示例：

dat <- data.frame(y = rbinom(5000, size = 1, prob = 0.5),
               x = rnorm(5000), group = rep(1:1000, each = 5))
fit1 <- glm(y ~ factor(group) + x, data = dat, family = binomial)

require(glmmML)
fit2 <- glmmboot(y ~ x, cluster = group,data = dat)

计算时间差异“巨大”！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R 中的大型固定效应二项式回归的相关文章

如何从 ISI Web of Knowledge 检索有关期刊的信息？

我正在从事一些预测文章引用计数的工作我遇到的问题是我需要 ISI Web of Knowledge 中有关期刊的信息他们逐年收集这些信息期刊影响因子特征因子但无法一次下载所有一年期期刊信息只有标记全部选项该选项始终标记列表
如何对 lm() 中的一系列值进行子集化

lm 的帮助文件没有涉及子集参数的语法我不知道如何让它找到最适合我的数据集的一部分的线这个问题是类似的但我无法使用它解决我的特定问题子集参数在 lm 函数中如何工作 https stackoverflow com questions
如何检查向量是否是单个 NA 值，没有长度警告且没有抑制

我有一个功能NA作为默认值但如果没有NA应该是一个不限于大小 1 的字符向量我有一个检查来验证这些但是is na当向量是字符向量时产生标准警告length大于1 so function lt function x NA if is n
基于两列对数据框中的行进行求和[重复]

这个问题在这里已经有答案了我想添加一列的值将它们按两列分组我找到了如何在一列上执行此操作但无法弄清楚如何在两列上执行此操作例如如果我有以下数据框 x c a a b b c c a a b b c c a a b b c c y
将 Excel 数字日期重新格式化为 R 日期

希望将从 Excel 中提取的列重新格式化为包含数字 Excel 格式例如 40182 的数据框 as date 40182 origin 1899 12 30 format b Y Returns 1 2070 年 1 月 5 日我正
data.table 相当于 dplyr::filter_at

考虑数据 library data table library magrittr vec1 lt c Iron Copper vec2 lt c Defective Passed Error set seed 123 a1 lt sampl
对 data.table 进行子集化的最快方法是什么？

在我看来这是执行行列子集的最快方法data table是使用 join 和nomatch option 它是否正确 DT data table rep 1 100 100000 rep 1 10 1000000 setkey DT V1
使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取

我想解析这个 HTML 并从中获取这个元素 a p标签与class normal encontrado b div with class price 有时 p某些产品中不存在标签如果是这种情况 NA应添加到从该节点收集文本的向量中这个
使用 R 将图例添加到绘图中

我使用 R 在一个图中创建了 4 条线这是代码 Define 2 vectors cars lt c 123 07 110 51 96 14 98 71 101 3 trucks lt c 110 31 89 91 89 81 89 31
连接路径的函数？

是否有现有的函数来连接路径我知道实施起来并不困难但仍然除了照顾尾随 or 我需要注意正确的操作系统路径格式检测即我们是否编写C dir file or dir file 正如我所说我相信我知道如何实施它问题是我应该这样做吗现
如何通过在R闪亮循环中读取.csv文件来动态生成dataTableOutput？

我有一个函数可以生成 n 个数据帧并将其作为 csv 文件保存在某个位置并且该函数返回已保存 CSV 的文件名我希望获取这些 csv 文件使用以下命令读取它read csv 然后使用 renderUI 和 renderDataTabl
为什么在 R 中绘图时，hovertemplate 无法正确显示某些数据点

mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
使用 xtable 对乳胶输出的表进行排序

我正在尝试生成一个排序表并导出到乳胶中然而 xtable 似乎无法处理排序表建议 a lt sample letters 500 replace T b lt table a c lt sort table a decreasing T
Dplyr 过滤多个类似条件

我正在尝试在 dplyr 中做一个过滤器其中的列就像某些观察结果我可以使用 sqldf 作为 Test lt sqldf select from database Where SOURCE LIKE ALPHA OR SOURCE LI
省略 RColorBrewer 调色板上较亮的颜色以在 ggplot2 中使用

我想在 RColorBrewer 的 Oranges 调色板中使用较深的颜色以便在我的 ggplot 条形图中使用然而我却做不到帮助下面是示例代码 my palette brewer pal n 9 Oranges 4 9 Bar
了解日期并使用 R 中的 ggplot2 绘制直方图

主要问题当尝试使用 ggplot2 制作直方图时我无法理解为什么日期标签和中断的处理无法像我在 R 中预期的那样工作我在找我的约会频率的直方图刻度线位于匹配条下方的中心日期标签在 Y b format 适当的限制最小化网格空
使用 sprintf 打印换行符 - 有光泽

我试图在打印时进行换行这是我的代码 temp lt LETTERS 1 11 print sprintf Rank s s n 1 11 temp output 1 Rank 1 A n Rank 2 B n Rank 3 C n Ran
当我添加形状时，分组哑铃图变得不稳定

我有以下数据显示白人与黑人在各个领域的一致性百分比我想创建一个分组哑铃图其中国家值和州值彼此相邻以便于比较 Domain c A B C D E F G A B C D E F G A B C D E F G A B C D E F
使用 alpha 通道叠加两个 ggplot2 stat_密度2d 图

我想叠加两个ggplot2使用 alpha 通道进行绘图结果图像显示两个数据集这是我的测试数据 data read table text P1 1 0 4 nP2 0 0 2 nP3 2 1 8 nP4 2 2 6 nP5 0 5 2
将 r 中的一列从出生日期更改为年龄

我是第一次使用 data table 我的表中有大约 400 000 个年龄的列我需要将它们从出生日期转换为年龄做这个的最好方式是什么我一直在思考这个问题到目前为止对这两个答案都不满意我喜欢用lubridate 就像 KFB 所做

随机推荐

Fiddler 无法在任何版本的 Internet Explorer 中工作

Fiddler 在 Firefox 中工作正常但我无法让它在 Internet Explorer 中工作我尝试卸载IE9 但它在IE8中也不起作用我通常不会太在意因为我在 Firefox 中工作然而我在 ie9 中读到 loca
从 SQL Server 2005 中的日期时间减去分钟

假设我有一个日期时间字段其值为2000 01 01 08 30 00和一个持续时间字段其值为00 15 意思是15分钟如果我减去这两个我应该得到2000 01 01 08 15 00 另外如果我想减去1 15 表示1小时15分钟输
typescript，无法处理缺失属性的并集。 [tsserver 2339] 类型上不存在属性“数据”

我有两个对象一个有属性数据另一个没有 const jsonWithNoData const jsonWithData data 1 2 3 采取联合后我尝试执行类型缩小 const jsonWithNoData const jsonW
Ruby rubocop：如何冻结使用 splat 生成的数组常量

我正在分配一个像这样的数组常量 NUMS 2 9 鲁博科普说 C 冻结分配给常量的可变对象数值 2 9 So I try NUMS 2 9 freeze 鲁博科普说 C 冻结分配给常量的可变对象 NUMS 2 9 冻结 Tried N
滚动到页面底部 100px 时，jQuery 加载内容，触发多个事件

我希望当用户滚动并到达页面底部附近时加载更多内容例如距底部约 100 像素问题是每次您在页面的下部 100 像素中滚动时都会触发事件所以这是一个明显的问题由于显而易见的原因不可能发生所以我想知道如何才能做到最好我已经在这里查看
带有加密 JWT 访问令牌的 Spring Boot OAuth2

在我的 Spring Boot 应用程序中我使用授权资源服务器配置了自己的 OAuth2 我已经实现了以下 JwtAccessTokenConverter Bean public JwtAccessTokenConverter acce
SwiftUI 应用程序的 NavigationView 中的 onAppear 和 onDisappear 是否按预期运行？

我想知道 SwiftUI 我写这篇文章时是 Xcode 11 beta 6 中的 onAppear 和 onDisappear 行为是否对开发人员来说更有用或者它只是一个问题而不是一个功能现在如果我们使用级联导航正如您在我附加的示例
Postgres 默认按 id 排序 - worldship

我需要设置 worldship 以从我们的 postgres 数据库之一中提取数据我需要它以便包按 id 排序我无法据我所知让 worldship 发送 order by 子句因此我需要将返回的记录默认为按 id 返回第二点
在 ionic vue 中创建持久更新通知

一般来说在手机上至少在 Android 上打开时钟应用程序并启动秒表或计时器后当您最小化该应用程序甚至关闭它时通常会出现一条持续通知其中包含当前秒表计时器值不断更新这是一个示例 GIF 演示了这一点 https gfy
春季批次 |必须至少存在一个 JPA 元模型

我正进入状态java lang IllegalArgumentException At least one JPA metamodel must be present 尝试运行简单的 Spring Batch 应用程序时出错相关代码和配
使用 LifecycleCallbacks 时找不到该文件

我有问题form validation in symfony2 就我而言 form gt isValid 命令结果为The file could not be found 即使我在填写表格时提供了文件另外调试setFile函数于docum
从 numpy 数组中随机选择

我有两个相关的 numpy 数组 X and y 我需要选择n随机行来自X并将其存储在数组中对应的y值并附加随机选择的点的索引我有另一个数组index它存储了我不想采样的索引列表我怎样才能做到这一点样本数据 index 2 3 X
如何在 VBA 中打印大型用户表单

我在 VBA 中有一个大型用户表单表单上已经有一个打印选项可以打印一半的表单请告诉我如何在两页内打印横向和整个表格 Thanks Userform PrintForm 方法不提供任何选项另一方面工作表提供了无数的选项 I wo
定时器精度：c Clock( ) 与 WinAPI 的 QPC 或 timeGetTime( )

我想表征软件计时器的准确性我不太关心它的准确性但确实需要知道准确性是多少我研究了c函数clock 以及WinAPI的函数QPC和timeGetTime 我知道它们都依赖于硬件我正在测量一个可能需要大约 5 10 秒的过程我的要求很
如何在 Linux 中避免通过本地堆栈进行路由

我有以下环境 2 台主机每台主机都有 2 个相互连接的以太网接口如下图所示 1 2 host1 host2 3 4 我想编写客户端服务器套接字工具它将在 host1 上打开客户端和服务器套接字我希望客户端通过接口 1 发
在 XCode 5 中使用 iOS 5 模拟器？

XCode 5 似乎仅附带 iOS 6 和 7 模拟器有没有办法将 iOS 5 模拟器与 XCode 5 一起使用如果您在 OS X v10 8 下使用 Xcode 5 那么如果您转到首选项 gt 下载您应该会在组件下看到可用的
如何锁定文件

我有一个write应该将数据安全写入文件的方法 The current file I am writing to FileOutputStream file null Synchronized version private void wr
如何使用 Rspec 测试 Sinatra 中的辅助块？

我正在编写一个 sinatra 应用程序并使用 rspec 和rack test 对其进行测试如 sinatrarb com 上所述到目前为止一切都很棒直到我将一些相当程序化的代码从我的域对象移到西纳特拉的帮手从那时起我一直试
使用 Firebase OAuth 保护 RESTful API？

我在 iOS 和 Web 应用程序中使用 Firebase 来处理用户身份验证我需要确保用户已登录然后才能向我的 API 发出任何请求我如何使用 Firebase 完成这样的事情我正在考虑使用 Kong https getkong
R 中的大型固定效应二项式回归

我需要在一个相对较大的数据框架上运行逻辑回归该数据框架包含 480 000 个条目和 3 个固定效应变量固定效应 var A 有 3233 个级别 var B 有 2326 个级别 var C 有 811 个级别所以总共我有 6370

R 中的大型固定效应二项式回归

R 中的大型固定效应二项式回归 的相关文章

随机推荐

热门标签

R 中的大型固定效应二项式回归的相关文章