在 R 中处理非常大的数据集

2024-01-12

我正在处理一个非常大的数据集，我正在从 Oracle 数据库下载该数据集。数据框大约有 2100 万行和 15 列。我的操作系统是 windows xp（32 位），我有 2GB RAM。短期内我无法升级我的内存或操作系统（它正在工作，我需要几个月的时间才能得到一台像样的电脑）。

library(RODBC)
sqlQuery(Channel1,"Select * from table1",stringsAsFactor=FALSE)

我到这里已经陷入了通常的“无法将 xMb 分配给向量”的困境。我发现了一些关于使用的建议ff包裹。我很想知道熟悉 ff 包的人是否可以告诉我它对我的情况是否有帮助。您知道解决内存问题的另一种方法吗？ 64 位解决方案有帮助吗？感谢您的建议。

如果您正在使用 ff 包并将数据保存在 SQL 中，则可以使用 ff 包轻松地将它们获取到 ff 中ETLUtils http://cran.r-project.org/web/packages/ETLUtils/index.html，请参阅文档以获取使用 ROracle 时的示例。

根据我的经验，ff 非常适合您正在使用的数据集类型（21 Mio 行和 15 列） - 事实上，您的设置对 ff 来说有点小，除非您的列包含大量将转换为的字符数据因素（意味着所有因素级别都应该能够适合您的 RAM）。软件包 ETLUtils、ff 和软件包ffbase http://cran.r-project.org/web/packages/ffbase/index.html允许您使用 ff 获取 R 中的数据并对其进行一些基本统计。根据您将如何处理数据和硬件，您可能必须在构建模型时考虑采样。我更喜欢将数据放在 R 中，使用 ff 中的工具（如分块）或 ffbase 包中的工具基于样本和评分构建模型。

缺点是您必须习惯数据是 ffdf 对象这一事实，这可能需要一些时间 - 特别是如果您是 R 新手。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

在 R 中处理非常大的数据集的相关文章

如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
在 RcppArmadillo 中将列向量乘以数值标量

我在编译这个简单的程序时遇到一些麻烦c 代码使用Rcpp和RcppArmadillo包裹采用以下简单示例将矩阵的每一列乘以数值标量 code lt arma mat out Rcpp as
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
R中IF函数的使用

我正在短跑ifR 中的函数但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used
要在子集中显示的非数字条目的维恩图

我有以下数据框 SET1 SET2 SET3 par1 par2 par1 par2 par3 par2 par3 par4 par5 我想制作一个维恩图其中所有这些 parX 元素都显示在各自的子集中即作为标签而不仅仅是重叠元素的数
当设置 coord_fixed 时，ggplot/shiny 中的鼠标悬停坐标是错误的

我正在使用问题中的答案当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
将维基百科中的表格加载到 R 中

我正在尝试从以下 URL 将最高法院法官表加载到 R 中 https en wikipedia org wiki List of Justices of the Supreme Court of the United States http
如何在Rstudio中快速给几个单词加上引号？

如何将 MI ID FL 转换为 MI ID FL 而无需键入每个双引号 Hmisc 包有一个函数 Cs 它将评估逗号分隔的文本是否带有引号 Cs MI ID FL becomes MI ID FL
R：单纯形错误：在下标赋值中不允许使用 NA

对于以下具有目标函数和约束的最小化 boot simplex返回错误 Error in tab pr lt tab pr tab pr pc pv o tab pr NAs are not allowed in subscripted as
如何像在facet_grid中一样在facet_wrap中定位条带标签

我想在使用时删除多余的条带标签facet wrap 并用两个变量进行分面并且都是自由尺度的例如这个facet wrap下图的版本 library ggplot2 dt lt txhousing txhousing year in 20
获取包含矩阵行内最大值的列名称，该矩阵在数组内包含单独的最大值

例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
将整个包传递给雪簇

我正在尝试并行化使用snow parLapply 一些依赖于包即除snow 调用函数中引用的对象parLapply必须使用显式传递给集群clusterExport 有没有办法将整个包传递到集群而不必显式命名每个函数包括用户函数调用的
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
更改绘图区域背景颜色

我想使用我们公司的颜色在 R 中制作一个图表这意味着所有图表的背景应为浅蓝色但绘图区域应为白色我正在寻找答案发现绘制一个矩形就可以完成这项工作几乎然而绘图区域现在是白色的并且图形不再可见这可能吗 getSymbols SP

随机推荐

删除HABTM关联记录

我有两个模型帖子和标签帖子有并属于许多标签假设帖子 1 具有世界新闻和报纸标签现在在连接表中我想删除标签 paper 和Post 1 之间的关联但标签 paper 不应该从标签表中删除仅应删除连接表中的关联我如何在 Cak
如何获得 iPhone 录音的音量测量值（以 dB 为单位），限制至少为 120dB

我正在尝试为 iPhone 制作一个简单的音量计我希望音量以 dB 为单位显示使用时本教程 http www iwillapps com wordpress p 32 我只能得到高达 78 dB 的测量值我读到这是因为 16 位音频录
在 WPF 应用程序中托管 WCF Rest 服务

您好我有一些使用 WCF Rest Started Kit 创建的 REST 服务我需要在 WPF 应用程序中托管这些服务有人能指出正确的方向吗 Codeplex 中有一个非常好的项目名为 WPF 开发人员的 WCF 指南其中包含
如何使用 javascript 确定用户区域设置日期格式（格式为 dd/mm 或 mm/dd）？

我正在尝试确定用户区域设置日期格式以便稍后可以使用它以特定格式显示日期我知道我可以使用toLocaleDateString 获取日期格式假设我有1 2 2017 如何判断是否在dd mm格式或mm dd format 我尝试过的一件事
真正的中心垂直和水平 CSS Div [重复]

这个问题在这里已经有答案了如何创建一个真正的中心 CSS div 跨浏览器例如在保存页面中使用我尝试过这个 2007 年的 css 技巧如何将对象精确居中 http css tricks com quick css trick ho
C++ 中普通类型的构造和初始化

A 琐碎的课 https timsong cpp github io cppwp n4659 class def trivial class是可以简单复制的并且有一个简单的默认构造函数 https timsong cpp github io
Node.js 和 MongoDb 中的同步应用程序的结构

我需要构建一个执行以下操作的应用程序按顺序 on load 01 connect to MongoDB db 02 creates a collection cas 03 check if a web page has updates i
如何在 Ansible 中使用分隔符分割值

我在 Ansible 中设置一个事实该变量的值带有连字符如下所示 dos e1 南 209334567829102380 我想分开所以我只能得到 dos e1 南这是这部戏 set fact config asg results j
Visual Studio：如何“复制到输出目录”而不复制文件夹结构？

我的项目文件夹的 lib 文件夹中有一些 dll 文件在dll的属性页中我选择了构建操作作为内容复制到输出目录作为始终复制构建后我实际上复制了 dll 但它们位于 bin Release lib 内而不是 bin Re
如何根据两个字符串列的差异在 pandas 中创建新列？

如何在 pandas 中创建一个新列该新列是由字符串组成的其他两列的差异的结果我有一个标题为 Good Address 的列其中包含 123 Fake Street Apt 101 等条目另一列标题为 Bad Address 其中包
C# Lambda 和“this”变量范围

我想知道我是否可以使用thisC lambda 中的关键字尽管实际上我know我可以但我想确保这不是一件坏事或者稍后会产生微妙的问题阅读规则后lambda 的变量范围 http msdn microsoft com en us li
在 Google Colaboratory 中长时间运行的会话结束后，如何使用剩余的 epoch 来训练模型？

我正在使用 Google Colab 训练 60 个时期的 3D 卷积神经网络但是当达到 57 个时期时我的会话就结束了重新连接后训练从 epoch 1 开始在 Google Colaboratory 上的会话结束后我应该如何在
使用 Maven / Eclipse 停止自动构建

我们使用 Maven 和 Eclipse 我们有一个多模块项目相当大 Eclipse Maven 集成似乎会自行决定何时对构建依赖模块做出反应这很痛苦我已经打开了自动构建但这似乎没有做出任何改变有一些操作例如删除资源或启动模块
奇怪的Python类型“文本”？

我使用库 suds 与 SOAP 服务器进行通信请求成功完成后我收到答复 answer client invoke RetrieveBLABLAObject modelthings 这个答案是请求对象的许多不同字段的结构每个字段都是由
命令行中“程序&”是什么意思？

我需要使用套接字开发客户端和服务器程序我的程序应该从命令行获取端口号我看到一个例子上面写着 myprogram 2454 我想知道那是什么的意思是那里这意味着在后台启动该进程 http tldp org LDP abs html
将数据发送到 Google Cloud ML 自定义预测例程时出现未知错误

我正在尝试在 AI Platform 上编写自定义 ML 预测例程以从客户端获取文本数据进行一些自定义预处理将其传递到模型中然后运行模型我能够成功地将这段代码打包并部署到谷歌云上但是每次我尝试从 node js 向它发送请求时
在 CVS 中移动文件而不重置修订号

最近我一直在源代码树中移动源文件例如将一堆文件放入一个公共程序集中我一直在这样做从 CVS 中删除文件然后将其再次添加到新位置问题是文件的修订号重置回 1 1 有没有一些简单的方法可以在不重置号码的情况下移动物品我可能应该提到
将 ConstraintLayout 中的所有子宽度与最宽子宽度匹配，宽度 = 换行内容

ConstraintLayout 功能强大但有时也很棘手我想实现一个布局ConstraintLayout这可以很容易地实现LinearLayout 蓝色区域是父constraintLayout 红色部分是LinearLayout 我想通
如何从 R 发送电子邮件

我想从 R 发送电子邮件这是我到目前为止所拥有的 library sendmailR from lt email protected cdn cgi l email protection to lt email protected cdn
在 R 中处理非常大的数据集

我正在处理一个非常大的数据集我正在从 Oracle 数据库下载该数据集数据框大约有 2100 万行和 15 列我的操作系统是 windows xp 32 位我有 2GB RAM 短期内我无法升级我的内存或操作系统它正在工作我需要

在 R 中处理非常大的数据集

在 R 中处理非常大的数据集 的相关文章

随机推荐

热门标签

在 R 中处理非常大的数据集的相关文章