R + ggplot2 - 无法分配大小为 128.0 Mb 的向量

2024-06-05

我有一个 4.5MB（9,223,136 行）的文件，其中包含以下信息：

0       0
0.0147938       3.67598e-07
0.0226194       7.35196e-07
0.0283794       1.10279e-06
0.033576        1.47039e-06
0.0383903       1.83799e-06
0.0424806       2.20559e-06
0.0465545       2.57319e-06
0.0499759       2.94079e-06

每列中的值表示 0 到 100 之间的值，表示百分比。我的目标是在 ggplot2 中绘制一个图形来检查它们之间的百分比（例如，第 1 列的 20% 是第 2 列达到的百分比）。这是我的 R 脚本：

library(ggplot2)
dataset=read.table("~/R/datasets/cumul.txt.gz")
p <- ggplot(dataset,aes(V2,V1))
p <- p + geom_line()
p <- p + scale_x_continuous(formatter="percent") + scale_y_continuous(formatter="percent")
p <- p + theme_bw()
ggsave("~/R/grafs/cumul.png")

我遇到问题，因为每次运行此 R 都会耗尽内存，并给出错误：“无法分配大小为 128.0 Mb 的向量”。我在 Linux 机器上运行 32 位 R，并且有大约 4GB 的可用内存。

我想到了一种解决方法，包括降低这些值的精度（通过对它们进行四舍五入）并消除重复的行，以便数据集中的行数更少。您能给我一些关于如何做到这一点的建议吗？

您确定 4.5MB 文件中有 900 万行吗（edit：也许你的文件是 4.5 GB？？）？它必须被严重压缩——当我创建一个大小十分之一的文件时，它是 115Mb ...

n <- 9e5
set.seed(1001)
z <- rnorm(9e5)
z <- cumsum(z)/sum(z)
d <- data.frame(V1=seq(0,1,length=n),V2=z)
ff <- gzfile("lgfile2.gz", "w")
write.table(d,row.names=FALSE,col.names=FALSE,file=ff)
close(ff)
file.info("lgfile2.gz")["size"]

从您提供的信息中很难判断数据集中有什么样的“重复行”......unique(dataset)将仅提取唯一的行，但这可能没有用。我可能会先简单地将数据集稀疏 100 或 1000 倍：

smdata <- dataset[seq(1,nrow(dataset),by=1000),]

看看接下来的进展如何。（edit: 忘了逗号！）

大型数据集的图形表示通常是一个挑战。一般来说，你会过得更好：

在绘制数据之前以某种方式汇总数据
使用专门的图形类型（密度图、等高线、六边形分箱）来减少数据
使用基本图形，它使用“绘制并忘记”模型（除非打开图形记录，例如在 Windows 中），而不是点阵/ggplot/网格图形，后者保存完整的图形对象然后渲染它
使用光栅或位图图形（PNG等），它只记录图像中每个像素的状态，而不是矢量图形，它保存所有对象，无论它们是否重叠

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

ggplot2

R + ggplot2 - 无法分配大小为 128.0 Mb 的向量的相关文章

在 R 中组合/合并列

我可能在这个问题上遗漏了一些很容易的东西我在任何地方都找不到正确的答案我真的需要继续前进所以我过度简化了我的数据 eventID lt c 2 4 Time lt c 09 32 09 43 df1 lt data frame eve
按组连接/粘贴列并添加到原始数据

我有一个名称数据框名称按部门分组 Dept Date Name 30 07 DEC 02 Raphaely 30 18 MAY 03 Khoo 40 07 JUN 02 Mavris 50 01 MAY 03 Kaufling 50
knitr pandoc：“无法使用 pdf writer 生成 pdf 输出”

Up front using pandoc 在knitr中当尝试将 md或 Rmd编译为PDF时它会抱怨我正在简化流程可重复的研究正如许多地方所记录的那样我在用着pandoc and knitr并制作出色的文档我还试图为一些不太
R ggplot结合颜色图例和不同因子长度的填充

我正在使用不完整因子设计的数据绘制图表由于设计的原因我的颜色手动比例和填充手动比例的长度不同因此我得到了两个传说我怎样才能删除其中之一或者更好地将它们组合起来我看过这些问题合并单独的大小并填充 ggplot 中的图例 http
如何计算两个邮政编码之间的距离？

我有一个美国邮政编码列表我必须计算所有邮政编码点之间的距离它是一个 6k 邮政编码长列表每个实体都有邮政编码城市州纬度经度面积和人口所以我必须计算所有点之间的距离即 6000C2 组合这是我的数据示例我已经在 SA
我想将两个变量合并为一个具有日期格式的变量

我有一个包含几个月的字符列的数据集 MONTH 和指示年份的数字列 YEAR 为了将其用作面板数据我需要将这些结合起来YEAR and MONTH转换为日期格式的变量我尝试过改变变量MONTH转换为数字格式然后合并MONTH与柱YEA
如何改变R中数据框的形状？（将具有相同名称的列堆叠在一起）

我正在尝试重塑 R 中的数据框 Gene ID Value Gene ID 1 Value 1 Gene ID 2 Value 2 1 A 0 A 3 A 1 2 B 5 B 6 B 5 3 C 7 C 2 C 7 4 D 8 D 9 D
根据值绘制具有条件颜色的折线图

我想绘制折线图根据值它应该改变它的颜色我发现的是 plot sin seq from 1 to 10 by 0 1 type p col ifelse sin seq from 1 to 10 by 0 1 gt 0 5 red ye
为什么 NaN^0 == 1

受到早期高尔夫代码的提示为什么会 gt NaN 0 1 1 这非常有道理NA 0为 1 因为NA缺少数据并且any数字提高到 0 将得到 1 包括 Inf and Inf 然而NaN应该代表非数字那么为什么会这样呢当帮助页面出现时
在 R 中提取栅格的最快方法（提高我的可重现代码的时间）

我想知道我是否已最大化提取栅格中某个点周围缓冲区域平均值的速度本地的性能可以进一步提高吗 I use parallel mclapply已经我知道我可以通过在集群上设置和运行它来获得进一步的收益使用集群或获得更多的CPU不是我正在寻找
在 data.table 1.9.4 或更早版本上，按字符串键 `order(-x,v)` 对 data.table 中的行进行降序排序会出现错误

假设我有以下内容data table in R library data table DT data table x rep c b a c each 3 y c 1 3 6 v 1 9 我想按两列排序例如列x and v 我用过这个 D
每行和每列都有条件的随机值（0 和 1）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您好我正在尝试在 R 中创建一个 600 行和 18 列的数据框但是每行 18 列中只能随机有 3 个 1 例如 A E F 列
照片与 r 中的图形对齐

首先我想我需要在powerpoint中手动完成它然后我想如果有解决方案的话可以尝试使用R 这是我的示例数据 set seed 123 myd lt expand grid cat LETTERS 1 5 cond c F T phase
读取时 R 中的内存错误.xlsx

我正在使用以下 R 代码也利用 Java 参数来增加内存 library xlsx options java parameters Xmx1g library XLConnect NiVe lt read xlsx version1 xl
绘图中的文本错误 | Jupyter-R

我正在尝试在通过 Anaconda 安装的 Jupyter 笔记本上使用 R 中的 ggplot2 绘制一个带有一些数据的简单散点图以下是我使用的代码 ggplot data df1 1 1000 geom point mapping a
R 代码编程：在堆叠排序表上先向下填充缺失列值，然后向上填充

我有一个包含 3 列的数据框但第三列有一些缺失值需要用以下逻辑填充期望的结果是第三列部分上没有缺失值要填充它我们必须找到第一个周其中为该特定项目第一列填充了部分值并且然后通过向下复制 part 来填充它直到找
如何引用基于 data.frame 中的变量的列表？

我有一张简单的桌子emp id and job code 我想返回正确的payout基于job code 我已经用嵌套的 ifelse 来解决这个问题但是如果我有更多怎么办job code s library dplyr set seed
GGplot为点添加数据标签

如何使用 ggplot 将数据标签添加到点我有一个名为 stacked 的堆叠数据框 gt head stacked time value variable 1 100 152 2211 gg 2 110 146 3304 gg 3 11
update() 具有局部协变量的函数内的模型

我需要从函数内部更新回归模型理想情况下该函数应该适用于任何类型的模型 lm glm multinom clm 更准确地说我需要添加函数内部定义的一个或多个协变量这是一个例子 MyUpdate lt function model ra
将多个ggplot2图保存为列表中的R对象并在网格中重新显示

我想在大型 for 循环期间将多个绘图使用 ggplot2 保存到列表中然后随后在网格中显示图像使用 grid arrange 我已经尝试了两种解决方案 1 将其存储在列表中如下所示 pltlist qplot lt qplot 然

随机推荐

是否可以/容易确定程序使用了多少电量？

是否可以确定甚至合理估计程序使用了多少电量这个想法是根据功耗而不是典型性能来分析我的代码测量 CPU 使用率 GPU 使用率和内存访问量是否足够有很多方面会影响应用程序的功耗并且根据所使用的硬件的不同这些方面会有很大差异获得想法
反应本机谷歌日历

我疯狂地搜索寻找一个可以与谷歌日历一起使用的 React Native 包获取事件数据并单独显示标题描述等有人知道 React Native 的包吗 Cheers 我最终使用了react native calendar 但为自己创
ASP MVC 5 - 403 customError 不起作用

我正在尝试为我的应用程序创建自定义错误页面它在大部分情况下都有效但不适用于403 errors 我的网络配置
Javascript/DOM：如何删除 DOM 对象的所有事件侦听器？

只是问题有没有办法完全删除对象的所有事件例如一个div 编辑我添加每div addEventListener click eventReturner false 一个事件 function eventReturner return f
在 Go 中，如何将函数的 stdout 捕获到字符串中？

例如在 Python 中我可以执行以下操作 realout sys stdout sys stdout StringIO StringIO some function prints to stdout get captured in t
Django 管理通过 ImageField 链接到图像

我已经设置了一个活动的 Django 模型其中包含以下字段 class Activity models Model thumbnail models ImageField upload to thumbs blank True null
当应用程序从最近的应用程序中滑动时，前台服务会被终止，通知也会被删除

我有一个foreground service有通知当应用程序从最近的应用程序托盘中滑出时服务将被终止通知也会被删除这是我的服务的代码VoiceService class Override public IBinder onBind
使用 CommonCrypto 的 Swift AES 加密

我正在开发一个 iOS 应用程序代码7 1 with 斯威夫特2 1我正在尝试进行简单的加密AES 128 位 and PKCS7填充使用通用加密库该代码有效但每次我尝试投射NSData反对NSString然后对于 String 我得到
PostgreSQL 中的仅索引扫描和位图索引扫描有什么区别？

在我的查询中我只想调用具有精确 where 条件的数据这些where条件是在index html中创建的 Bu 解释显示了位索引扫描我不明白为什么我的查询如下所示 Select r spend r date from metadat
如何以相同的意图从相机获取全尺寸图片和缩略图

我一直需要找到这个问题的解决方案我已经从这个社区搜索并测试了许多解决方案但任何人都适合帮助我我有两个活动第一个活动拍摄一张照片并将其发送到另一个活动该活动有一个 ImageView 来接收该照片直到这里我遇到问题以及一个在数据
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
本地 SQLite 与远程 MongoDB

我正在设计一个新的 Web 项目在研究了一些旨在可扩展性的选项后我提出了两个数据库解决方案为可扩展方式精心设计的本地 SQLite 文件每个 X 用户一个新的数据库文件因为写入将取决于用户内容不存在跨用户数据依赖性远程 Mon
NSPredicate predicateWithFormat 传入属性名称

关于 NSPredicate 的简单问题我正在尝试使用传入值构建我的谓词如下所示 NSPredicate currentPredicate NSPredicate predicateWithFormat key changesDic
我可以将 Team Explorer 2010 与 Visual Studio 2008 一起使用吗？

我觉得标题已经说得很清楚了但我也想说一下为什么我已经下载了 TFS 2010 和 Team explorer 2010 但我仍在使用 VS2008 短期内没有更改计划我的问题是我可以一起使用它们吗另外我的VS只是专业版我不想下
从 ef core 的子集合中删除一些项目

我有一个父表和子表其中父表与子表具有一对多关系我想删除一些子项并且希望父项的子集合反映该更改如果我使用删除选定的子项RemoveRange 那么子集合不会更新如果我使用Remove从子集合中删除子集合然后显然它不如使用效率高R
React-native：远程调试器停止工作

我总是在我的应用程序和真实设备上使用调试器但今天它突然停止工作了打开它时我的终端中出现此错误 Error Unable to resolve module debugger ui debuggerWorker cff11639 js
router.navigate 使用查询参数 Angular 5

我在使用查询参数路由到路由时遇到问题我有一个像这样的函数 goToLink link this router navigate link split 0 queryParams this sortParams link 和这个功能 sort
直接来自数据的马尔可夫模型图（makovchain 或 deemod 包？）

我想读取一堆因子数据并从中创建一个可以很好地可视化的转换矩阵我发现了一个非常好的软件包称为 heemod 它与 diagram 一起工作得不错对于我的第一个快速而肮脏的方法我运行了一段 Python 代码来获取矩阵然后使用这个 R
基于 C++ 范围的 for 循环

尝试使用基于范围的 for 循环执行某些操作可以使用常规的 for 循环来完成如下所示 vector
R + ggplot2 - 无法分配大小为 128.0 Mb 的向量

我有一个 4 5MB 9 223 136 行的文件其中包含以下信息 0 0 0 0147938 3 67598e 07 0 0226194 7 35196e 07 0 0283794 1 10279e 06 0 033576 1 470

R + ggplot2 - 无法分配大小为 128.0 Mb 的向量

R + ggplot2 - 无法分配大小为 128.0 Mb 的向量 的相关文章

随机推荐

热门标签

R + ggplot2 - 无法分配大小为 128.0 Mb 的向量的相关文章