模型使用 glm 运行，但不运行 bigglm

2024-01-24

我试图对 320,000 行数据（6 个变量）运行逻辑回归。对数据样本 (10000) 的逐步模型选择给出了一个相当复杂的模型，具有 5 个交互项：Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5. The glm()函数可以用 10000 行数据拟合该模型，但不能用整个数据集 (320,000) 拟合。

Using bigglm从 SQL 服务器读取数据块会导致错误，并且我无法理解结果traceback():

fit <- bigglm(Y~X1+ X2*X3+ X2*X4+ X2*X5+ X3*X6+ X4*X5, 
       data=sqlQuery(myconn,train_dat),family=binomial(link="logit"), 
       chunksize=1000, maxit=10)

Error in coef.bigqr(object$qr) : 
NA/NaN/Inf in foreign function call (arg 3)

> traceback()
11: .Fortran("regcf", as.integer(p), as.integer(p * p/2), bigQR$D, 
    bigQR$rbar, bigQR$thetab, bigQR$tol, beta = numeric(p), nreq = as.integer(nvar), 
    ier = integer(1), DUP = FALSE)
10: coef.bigqr(object$qr)
9: coef(object$qr)
8: coef.biglm(iwlm)
7: coef(iwlm)
6: bigglm.function(formula = formula, data = datafun, ...)
5: bigglm(formula = formula, data = datafun, ...)
4: bigglm(formula = formula, data = datafun, ...)

bigglm能够用更少的交互项来拟合更小的模型。但bigglm无法使用小数据集（10000 行）拟合相同的模型。

以前有人遇到过这个问题吗？还有其他方法可以使用大数据运行复杂的逻辑模型吗？

我已经多次遇到这个问题，它总是由 bigglm 处理的块不包含分类（因子）变量中的所有级别这一事实引起的。

bigglm 按块处理数据，块的默认大小为 5000。如果您的分类变量中有 5 个级别，例如(a,b,c,d,e) 并且在您的第一个块（从 1:5000 开始）仅包含 (a,b,c,d)，但没有“e”，您将收到此错误。

您可以做的是增加“chunksize”参数的大小和/或巧妙地重新排序数据帧，以便每个块包含所有级别。

希望这有帮助（至少有人）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

模型使用 glm 运行，但不运行 bigglm 的相关文章

在 Shiny 应用程序中过滤数据时，长度为 1 的字符向量除了第一个元素之外的所有元素都将被忽略错误

我有以下闪亮的应用程序 library shiny library rhandsontable library shinydashboard library ggplot2 library dplyr setwd C Users Marc
Shiny可以识别用鼠标选择的文本（突出显示的文本）吗？

我需要用户将文本片段分配给 Shiny 中的类别或代码基本上我希望用户突出显示输出中的文本在下面的示例中来自table or text输出然后按一个按钮 code 并将选定的文本分配给应用程序内的对象在下面的应用程序中所选文
使用starts_with() 将 NA 替换为 0

我正在尝试替换我的一组特定列的 NA 值tibble 这些列都以相同的前缀开头所以我想知道是否有一种简洁的方法来使用starts with 函数从dplyr包可以让我做到这一点我已经看到了有关 SO 的其他几个问题但是它们都需要使用特
从向量中删除元素在 R 中出现的时间量

我想从一个向量中删除元素在另一个向量中出现的时间就像我要减去它们一样鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
rpart是自动剪枝吗？

Is rpart自动修剪生成的决策树rpart比具有自动修剪功能的 Oracle Data Mining 生成的级别要多得多否但拟合函数的默认值可能会提前停止分割对于早期的某些定义 See rpart control对于您可
将日期时间字符串转换为 Date 类

我有一个带有日期时间字符列的数据框当我使用as Date 除了少数实例之外我的大多数字符串都被正确解析下面的示例有望向您展示发生了什么 my attempt to parse the string to Date uses the s
stat_function 从函数生成平线

我有以下代码 library ggplot2 f lt function x if x gt 2 1 x 0 3 else 0 graph lt ggplot data frame x c 0 10 aes x graph lt graph
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
如何在基数 R 中进行分组

我想使用以下 SQL 查询来表达base R 没有任何特定的包 select month day count as count avg dep delay as avg delay from flights group by month d
R：ifelse 中的字符串列表

我正在寻找与 MySQL 中的 where var in 语句类似的东西我的代码如下 data lt data frame id 10001 10030 cc1 rep c a b c 10 attach data data new lt
如何在R中匹配具有相同主键的两个表中的数据

我有两个表其中包含有关人员的数据 df1 lt data frame id c 113 202 377 288 359 name c Alex Silvia Peter Jack Jonny 这为我提供了 id name 1 113 Al
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
修改linux下的路径

虽然我认为我已经接近 Linux 专业人士但显然我仍然是一个初学者当我登录服务器时我需要使用最新版本的R 统计软件 R 安装在 2 个地方当我运行以下命令时 which R I get usr bin R 进而 R version
R参考类问题

我正在尝试在 R 中创建一个简单的参考类这是我的代码 R 初学者 MyClass lt setRefClass MyClass fields list a numeric b numeric methods list initialize
函数“[<-”将_替换_一个元素，但不会追加_元素_

我在使用时注意到以下几点 lt 我成功于替换元素但不位于追加向量的一个元素例子 VarX lt integer VarX 1 lt 11 lt VarX 2 22 VarX 1 11 Expected the value of VarX
在 Lavaan 生长曲线模型中提取个体轨迹

我已经使用 R 的 Lavaan 包中的 Growth 函数成功地对一项研究的纵向数据进行了建模我找不到任何关于如何提取每个参与者的预测轨迹的记录我只能找到整个组的预测轨迹在摘要输出的拦截部分下给出使用 lavPredict m
如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412

随机推荐

当我运行代码时，我得到一个奇怪的输出（在问题中列出）。我该怎么办？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 from turtle import Turtle Screen timmy the turtle Turtle timmy the tur
合并两个具有不同列数的表

我有两张表表 A 和表 B 它们具有不同数量的列假设表 A 有更多列如何合并这两个表并为表 B 没有的列获取 null 对于具有较少列的表将额外的列添加为空例如 Select Col1 Col2 Col3 Col4 Col5 fr
Hilt ViewModel 没有零参数构造函数

Cannot create an instance of class com comp app winners WinnersViewModel Caused by java lang InstantiationException java
如何收到从 SD 卡删除任何文件的通知

我想创建Dumpster https play google com store apps details id com baloota dumpster像应用程序一样为此我希望在用户删除任何文件时收到通知以便我可以将其保存到我的应用程
如何使用多个数组创建 JSON 对象？

我以前从未使用过 JSON 所以我不熟悉它的语法目前我有多个包含不同数据的数组我想创建一个 JSON 对象其中包含多个数组每个数组都有几条数据 E g 一个名为 cars 的对象包含多个数组每个数组对应不同品牌的汽车每个数组中
ASP.NET Core MVC 应用程序中的 Microsoft LocalReport (rdl)

我正在使用 ASP NET Core 2 1 MVC 运行一个项目在我们公司我们确实使用 SQL Report Builder rdlc 和 rdl 文件完成了大量工作因此我们希望在 ASP NET Core MVC Web 应用
如果弹出窗口

有没有办法判断当前窗口是否是弹出窗口这就是我现在所拥有的但由于某种原因它不起作用我试图确保某些页面仅显示在弹出窗口中 if opener window location error php 即使窗口没有弹出 opener 的值也是 o
ColdFusion 在字符串中构造数据库查询时添加额外的引号

我正在 ColdFusion 中编码但试图留在 cfscript 中所以我有一个函数允许我传入一个查询来运行它
如何将 Tensor 转换为 ndarray（里面有对抗性图像的张量）

注意我已经尝试过不同 SO 问题的解决方案但没有成功详细信息如下我正在学习克莱尔汉斯Python 教程重点关注this https github com tensorflow cleverhans blob master clev
AWS Lambda 上的 Python：来自 botocore.vendored 的“请求”已弃用，但“请求”不可用

我有一个用于 AWS Lambda 函数的 Python 脚本该函数向另一个端点发出 HTTP POST 请求自从Python的urllib2 request https docs python org 2 library urllib
生成唯一的随机字母数字字符串

我正在开发一个应用程序允许用户共享简单调查的链接为此我想为每个调查生成唯一的 URL 因此具有如下 URL http myapp com aBcDe1F 我希望 URL 的字母数字标识符部分是伪随机的并且有点短 6 8 个字符现在
Highcharts 异步钻取

我正在关注http jsfiddle net gh get jquery 1 7 2 highslide software highcharts com tree master samples highcharts drilldown as
lambda 表达式的扩展方法

我有一个辅助方法它获取由 lambda 定义的属性的名称其工作原理如下 ExpressionUtil GetName Thing t gt t Property returns Property 我想将其转换为扩展方法因此语法将采用以
在 Linq 中处置 IDisposable

这是对答案的评论的后续this https stackoverflow com questions 1751153 how do you dispose of idisposableobject create inside of a lin
如何以 Rails 形式处理多个模型

http weblog rubyonrails org 2009 1 26 nested model forms http weblog rubyonrails org 2009 1 26 nested model forms 这篇文章有助
如何创建 Gmail 插件？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何创建 Gmail 插件我没有找到任何 API 可以做到这一点 Gmail 终于在 2017 年 10 月支持了 ADD ONS
JPA Hibernate - 数据库和注释中的级联删除

Brief 我想知道我应该做什么因为我读过很多文章试图理解这一点包括许多 SO 问题我读过的任何一篇文章都没有击中要害我想知道当使用级联规则和应用程序定义数据库时会发生什么因为这将定义我是否应该采用以下方法或其他方法示例表 cr
如何填充嵌套的 Mongoose 嵌入文档

我已经阅读并重新阅读了几篇关于 Mongoose 中嵌入和链接文档的文章根据我所读到的内容我得出的结论是最好具有类似于以下内容的模式结构 var CategoriesSchema new Schema year type Number
可以从 J2ME 查询手机的本机收件箱吗？

是否可以从 J2ME 查询移动设备的本机收件箱我想是端口 0 然后提取 SMS 进行处理不这是不可能的访问 SMS 的唯一 API 是JSR 120 205 http jcp org en jsr detail id 205 它只允
模型使用 glm 运行，但不运行 bigglm

我试图对 320 000 行数据 6 个变量运行逻辑回归对数据样本 10000 的逐步模型选择给出了一个相当复杂的模型具有 5 个交互项 Y X1 X2 X3 X2 X4 X2 X5 X3 X6 X4 X5 The glm 函数可以用

模型使用 glm 运行，但不运行 bigglm

模型使用 glm 运行，但不运行 bigglm 的相关文章

随机推荐

热门标签