在 R 中处理非常大的数据集

2024-01-12

我正在处理一个非常大的数据集,我正在从 Oracle 数据库下载该数据集。数据框大约有 2100 万行和 15 列。 我的操作系统是 windows xp(32 位),我有 2GB RAM。短期内我无法升级我的内存或操作系统(它正在工作,我需要几个月的时间才能得到一台像样的电脑)。

library(RODBC)
sqlQuery(Channel1,"Select * from table1",stringsAsFactor=FALSE)

我到这里已经陷入了通常的“无法将 xMb 分配给向量”的困境。 我发现了一些关于使用的建议ff包裹。我很想知道熟悉 ff 包的人是否可以告诉我它对我的情况是否有帮助。 您知道解决内存问题的另一种方法吗? 64 位解决方案有帮助吗? 感谢您的建议。


如果您正在使用 ff 包并将数据保存在 SQL 中,则可以使用 ff 包轻松地将它们获取到 ff 中ETLUtils http://cran.r-project.org/web/packages/ETLUtils/index.html,请参阅文档以获取使用 ROracle 时的示例。

根据我的经验,ff 非常适合您正在使用的数据集类型(21 Mio 行和 15 列) - 事实上,您的设置对 ff 来说有点小,除非您的列包含大量将转换为的字符数据因素(意味着所有因素级别都应该能够适合您的 RAM)。 软件包 ETLUtils、ff 和软件包ffbase http://cran.r-project.org/web/packages/ffbase/index.html允许您使用 ff 获取 R 中的数据并对其进行一些基本统计。根据您将如何处理数据和硬件,您可能必须在构建模型时考虑采样。我更喜欢将数据放在 R 中,使用 ff 中的工具(如分块)或 ffbase 包中的工具基于样本和评分构建模型。

缺点是您必须习惯数据是 ffdf 对象这一事实,这可能需要一些时间 - 特别是如果您是 R 新手。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 R 中处理非常大的数据集 的相关文章

随机推荐

  • 删除HABTM关联记录

    我有两个模型 帖子和标签 帖子有并属于许多标签 假设帖子 1 具有世界 新闻和报纸标签 现在在连接表中 我想删除标签 paper 和Post 1 之间的关联 但标签 paper 不应该从标签表中删除 仅应删除连接表中的关联 我如何在 Cak
  • 如何获得 iPhone 录音的音量测量值(以 dB 为单位),限制至少为 120dB

    我正在尝试为 iPhone 制作一个简单的音量计 我希望音量以 dB 为单位显示 使用时本教程 http www iwillapps com wordpress p 32 我只能得到高达 78 dB 的测量值 我读到这是因为 16 位音频录
  • 在 WPF 应用程序中托管 WCF Rest 服务

    您好 我有一些使用 WCF Rest Started Kit 创建的 REST 服务 我需要在 WPF 应用程序中托管这些服务 有人能指出正确的方向吗 Codeplex 中有一个非常好的项目 名为 WPF 开发人员的 WCF 指南 其中包含
  • 如何使用 javascript 确定用户区域设置日期格式(格式为 dd/mm 或 mm/dd)?

    我正在尝试确定用户区域设置日期格式 以便稍后可以使用它以特定格式显示日期 我知道我可以使用toLocaleDateString 获取日期格式 假设我有1 2 2017 如何判断是否在dd mm格式或mm dd format 我尝试过的一件事
  • 真正的中心垂直和水平 CSS Div [重复]

    这个问题在这里已经有答案了 如何创建一个真正的中心 CSS div 跨浏览器 例如在保存页面中使用 我尝试过这个 2007 年的 css 技巧 如何将对象精确居中 http css tricks com quick css trick ho
  • C++ 中普通类型的构造和初始化

    A 琐碎的课 https timsong cpp github io cppwp n4659 class def trivial class是可以简单复制的并且有一个简单的默认构造函数 https timsong cpp github io
  • Node.js 和 MongoDb 中的同步应用程序的结构

    我需要构建一个执行以下操作的应用程序 按顺序 on load 01 connect to MongoDB db 02 creates a collection cas 03 check if a web page has updates i
  • 如何在 Ansible 中使用分隔符分割值

    我在 Ansible 中设置一个事实 该变量的值带有连字符 如下所示 dos e1 南 209334567829102380 我想分开 所以我只能得到 dos e1 南 这是这部戏 set fact config asg results j
  • Visual Studio:如何“复制到输出目录”而不复制文件夹结构?

    我的项目文件夹的 lib 文件夹中有一些 dll 文件 在dll的属性页中 我选择了 构建操作 作为 内容 复制到输出目录 作为 始终复制 构建后 我实际上复制了 dll 但它们位于 bin Release lib 内 而不是 bin Re
  • 如何根据两个字符串列的差异在 pandas 中创建新列?

    如何在 pandas 中创建一个新列 该新列是由字符串组成的其他两列的差异的结果 我有一个标题为 Good Address 的列 其中包含 123 Fake Street Apt 101 等条目 另一列标题为 Bad Address 其中包
  • C# Lambda 和“this”变量范围

    我想知道我是否可以使用thisC lambda 中的关键字 尽管实际上我know我可以 但我想确保这不是一件坏事 或者稍后会产生微妙的问题 阅读规则后lambda 的变量范围 http msdn microsoft com en us li
  • 在 Google Colaboratory 中长时间运行的会话结束后,如何使用剩余的 epoch 来训练模型?

    我正在使用 Google Colab 训练 60 个时期的 3D 卷积神经网络 但是当达到 57 个时期时 我的会话就结束了 重新连接后 训练从 epoch 1 开始 在 Google Colaboratory 上的会话结束后 我应该如何在
  • 使用 Maven / Eclipse 停止自动构建

    我们使用 Maven 和 Eclipse 我们有一个多模块项目 相当大 Eclipse Maven 集成似乎会自行决定何时对构建依赖模块做出反应 这很痛苦 我已经打开了自动构建 但这似乎没有做出任何改变 有一些操作 例如 删除资源或启动模块
  • 奇怪的Python类型“文本”?

    我使用库 suds 与 SOAP 服务器进行通信 请求成功完成后 我收到答复 answer client invoke RetrieveBLABLAObject modelthings 这个答案是请求对象的许多不同字段的结构 每个字段都是由
  • 命令行中“程序&”是什么意思?

    我需要使用套接字开发客户端和服务器程序 我的程序应该从命令行获取端口号 我看到一个例子 上面写着 myprogram 2454 我想知道那是什么 的意思是那里 这意味着在后台启动该进程 http tldp org LDP abs html
  • 将数据发送到 Google Cloud ML 自定义预测例程时出现未知错误

    我正在尝试在 AI Platform 上编写自定义 ML 预测例程 以从客户端获取文本数据 进行一些自定义预处理 将其传递到模型中 然后运行模型 我能够成功地将这段代码打包并部署到谷歌云上 但是 每次我尝试从 node js 向它发送请求时
  • 在 CVS 中移动文件而不重置修订号

    最近我一直在源代码树中移动源文件 例如 将一堆文件放入一个公共程序集中 我一直在这样做 从 CVS 中删除文件 然后将其再次添加到新位置 问题是文件的修订号重置回 1 1 有没有一些简单的方法可以在不重置号码的情况下移动物品 我可能应该提到
  • 将 ConstraintLayout 中的所有子宽度与最宽子宽度匹配,宽度 = 换行内容

    ConstraintLayout 功能强大 但有时也很棘手 我想实现一个布局ConstraintLayout这可以很容易地实现LinearLayout 蓝色区域是父constraintLayout 红色部分是LinearLayout 我想通
  • 如何从 R 发送电子邮件

    我想从 R 发送电子邮件 这是我到目前为止所拥有的 library sendmailR from lt email protected cdn cgi l email protection to lt email protected cdn
  • 在 R 中处理非常大的数据集

    我正在处理一个非常大的数据集 我正在从 Oracle 数据库下载该数据集 数据框大约有 2100 万行和 15 列 我的操作系统是 windows xp 32 位 我有 2GB RAM 短期内我无法升级我的内存或操作系统 它正在工作 我需要