宽格式数据还是长格式数据效率更高?

2023-11-24

我只是好奇,无论解释如何,以长格式或宽格式存储数据是否更有效?我用过object.size()确定内存中的大小,但它们没有显着差异(长的在大小方面稍微更有效)并且该值只是估计。

除了原始大小之外,我还想知道哪种格式在建模中使用时的操作效率更高。


两者的内存占用情况不同matrixes 应该相同:

> object.size(long <- matrix(seq(10000), nrow = 1000))
40200 bytes
> object.size(square <- matrix(seq(10000), nrow = 100))
40200 bytes

效率上的任何差异都会与使用 R 的低效率相比相形见绌,因此即使可以测量,也几乎不需要考虑。

对于一个人来说,情况就大不相同了data.frame,因为它是作为list of vectors:

> object.size(as.data.frame(long))
41704 bytes
> object.size(as.data.frame(square))
50968 bytes

其时间效率取决于您到底想做什么。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

宽格式数据还是长格式数据效率更高? 的相关文章

  • 将多个函数应用于一个向量

    我正在寻找一种将多个函数应用于一个向量的选项 我认为这对于逆应用函数来说是一种仁慈 其中一个函数应用于许多向量 或列 有没有办法指定两个或多个函数 例如 min 和 max 并将其应用于向量 与 CathG的评论类似 但没有get v lt
  • 挑战:优化取消列出[简单]

    因为 SO 最近有点慢 所以我发布了一个简单的问题 如果大鱼们能在这场比赛中留在替补席上并给新秀们一个回应的机会 我将不胜感激 有时我们的对象具有大量的大列表元素 向量 您如何将这个对象 取消列出 到单个向量中 证明你的方法比unlist
  • 如何从数据框中按降序获取前n家公司

    我正在尝试从数据框中获取排名前 n 的公司 下面是我的代码 data Forbes2000 package HSAUR sort Forbes2000 profits decreasing TRUE 现在我想从这个排序向量中获取前 50 个
  • 为什么在 R 中绘图时,hovertemplate 无法正确显示某些数据点

    mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
  • 将一长行带空格的数据导入R中

    这个问题是我上一个问题的后续问题 将一长行数据导入到 R 中 https stackoverflow com questions 8389913 我有一个由单行文本组成的大型数据文件 格式类似于 Cat 14 15 Horse 16 我最终
  • Dplyr 过滤多个类似条件

    我正在尝试在 dplyr 中做一个过滤器 其中的列就像某些观察结果 我可以使用 sqldf 作为 Test lt sqldf select from database Where SOURCE LIKE ALPHA OR SOURCE LI
  • rpy2 无法加载外部库

    希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包 该包以 rJava 作为依赖项 venneuler 和 rJa
  • 当我添加形状时,分组哑铃图变得不稳定

    我有以下数据显示白人与黑人在各个领域的一致性百分比 我想创建一个分组哑铃图 其中国家值和州值彼此相邻 以便于比较 Domain c A B C D E F G A B C D E F G A B C D E F G A B C D E F
  • 在 mutate pipeline 中按组获取唯一 ID [重复]

    这个问题在这里已经有答案了 自从新的 dplyr v1 0 0 更新发布以来 我注意到该功能group indices 有 已弃用 我在工作中经常使用这个功能 并且我喜欢在mutate 例如使用dplyr v0 8 3我能够非常轻松地做这样
  • 使用插入符号完全可重现的并行模型

    当我在插入符中运行 2 个随机森林时 如果设置随机种子 我会得到完全相同的结果 library caret library doParallel set seed 42 myControl lt trainControl method cv
  • 使用 writeLines 将变量写入文件

    我发现此链接对于理解如何将行写入文件非常有帮助 将文本行写入 R 中的文件 https stackoverflow com questions 2470248 write lines of text to a file in r 不幸的是
  • 在 R 中运行 glmnet 包,出现错误“缺少 TRUE/FALSE 需要的值”,可能是由于缺少值?

    我正在尝试使用glmnet来自glmnet运行 LASSO 回归的包 我正在使用以下命令 library glmnet glmnet a b family binomial alpha 1 我收到错误 gt Error in if all
  • 可以使用部分名称访问列表成员吗?这是一个功能吗?

    考虑这个 R 代码 gt l list key 1 gt l k 1 1 gt l ke 1 1 gt l k NULL gt names l 1 key 这是否意味着您可以使用以下方式访问列表成员 及其部分名称 当我在一次令人沮丧的错误搜
  • 使用条件求 R 中的累积和

    我需要创建一个新变量 其中包含每个 ID 过去三年金额的总和 如果没有三年的数据 则应显示 NA 举个例子 ID YEAR AMOUNT 1 2010 5 1 2011 2 1 2012 4 1 2013 1 1 2014 3 2 2013
  • 将值排列在特定组内

    我试图在嵌套数据帧的精确组内按降序排列值 我的输入数据如下所示 我有两个分组变量 group1 and group2 和三个值 即id value2 value3 library tidyverse set seed 1234 df lt
  • 向数据框添加新列的问题 - Spark/scala

    我是 Spark scala 的新手 我正在尝试将一些数据从配置单元表读取到 Spark 数据帧 然后根据某些条件添加一列 这是我的代码 val DF hiveContext sql select from select from test
  • 在 R 中创建 xlsx 工作表 - 字体颜色不起作用

    我正在开发一个项目 需要从特定类型的数据框架自动生成数据电子表格 我读过关于如何执行此操作的有用解释here http www sthda com english wiki r xlsx package a quick start guid
  • x[floor(d)] + x[ceiling(d)] 中的错误:二元运算符的非数字参数

    我试图绘制病毒载量和试验组的简单箱线图 但不断收到此错误 x floor d x ceiling d 中的错误 二元运算符的非数字参数 dataset PatientID trial arm viral load 1 club 19 2 c
  • R 彩色树状图建议?

    我想制作彩色树状图 但尚未找到足够的库 http addictedtor free fr graphiques RGraphGallery php graph 79 http addictedtor free fr graphiques R
  • 如何从线性模型 (lm) 预测 x 值

    我有这个数据集 x lt c 0 40 80 120 160 200 y lt c 6 52 5 10 4 43 3 99 3 75 3 60 我使用计算了一个线性模型lm model lt lm y x 我想知道的预测值x如果我有新的y值

随机推荐

  • 鼠标按下。兄弟姐妹 event.targets 上的传播

    我有 2 个具有 绝对位置 的兄弟节点 它们都处理 mousedown 事件 当我单击 div 2 的透明区域 如图所示 时 如何触发 div 1 的处理程序 如果重叠元素是动态的 我认为不可能使用常规事件冒泡来完成此操作 因为所讨论的两个
  • Azure Fluent API 创建 SQL Server 时出错 - 缺少 x-ms-request-id 标头

    我正在尝试使用 Azure Fluent API 创建一个新的 SQL Server https github com Azure azure sdk for net tree Fluent 但我总是得到 Microsoft Rest Az
  • 如何在代码中使用 wsDualHttpBinding 设置 WCF 客户端?

    我需要连接到我编写的 WCF 服务 而无需为我正在编写的客户端应用程序部署 app config 然而 我一直在努力弄清楚如何在代码中从客户端进行设置 据我所知 有人知道我需要做什么才能让它发挥作用吗 我真的很感激 这是我到目前为止得到的代
  • 如何在 Python 中找到正则表达式的所有匹配项?

    在我正在编写的程序中 我让 Python 使用re search 函数在文本块中查找匹配项并打印结果 但是 一旦在文本块中找到第一个匹配项 程序就会退出 在找到所有匹配项之前程序不会停止的情况下 如何重复执行此操作 有一个单独的函数可以做到
  • 根据目标类型的无形状贴图 HList

    我有以下问题 我想将 HList 的项目映射到另一个 HList 但如果 目标 类型是 URL 则源 HList 中的字符串只能转换为 URL val name Stackoverflow val url https stackoverfl
  • 如何通过JQuery ajaxSend事件覆盖成功函数

    我试图覆盖 ajaxsend 事件的成功函数 但它不起作用 这是代码 document ajaxSend function event xhr options console log ajaxSend var tempSuccess opt
  • 如何每两周在周一和周二运行石英时间表?

    我使用以下方式每两周的星期一运行一次计划 ITrigger trigger TriggerBuilder Create StartAt DateBuilder DateOf StartHour StartMinute StartSecond
  • 为什么 Windows 不允许在模拟其他用户时启动 WinSock

    使用我自己的程序或其他程序 如果进程是使用 CreateProcessWithLogonW 或 CreateProcessAsUserW 创建的 则在调用时我无法运行 Winsock 当我创建套接字时它返回此错误 WSAEPROVIDERF
  • 重写 java equals() 方法 - 不起作用?

    我遇到了一个有趣的 而且非常令人沮丧的 问题equals 今天的方法导致我认为经过良好测试的类崩溃并导致一个错误 我花了很长时间才找到它 为了完整起见 我没有使用 IDE 或调试器 只是使用老式文本编辑器和 System out 时间非常有
  • 获取图像输入流的大小

    我需要获取输入流中找到的图像的高度和宽度 这是我所做的 private Boolean testSize InputStream inputStream BitmapFactory Options Bitmp Options new Bit
  • 空查询上的 ALL 运算符 VS Any

    我正在读甲骨文文档在 ANY 和 ALL 运算符上 我很了解它们的用途 除了一件事 它指出 ALL 如果子查询返回零行 则条件计算结果为 TRUE ANY 如果子查询返回零行 则条件计算结果为 FALSE 对我来说这似乎不太符合逻辑 为什么
  • 使用 Tortoise-ORM 在 FastAPI 中进行测试

    我正在尝试编写一些异步测试FastAPI using 乌龟 ORM under Python 3 8但我不断收到相同的错误 见最后 过去几天我一直在试图解决这个问题 但不知何故 我最近在创建测试方面的所有努力都没有成功 我正在关注FastA
  • 如何在单元测试中调用依赖注入类方法?

    我是单元测试和 DI 的新手 无法找到一种简单的方法来调用使用依赖项注入设计的类中的方法 这是我的班级 public class AgentProvisioningServiceHelpher IAgentProvisioningServi
  • 在 FIFO 队列系统中,实现优先级消息传递的最佳方式是什么

    对于不能一致支持优先级消息的消息中间件 例如AMQP 当队列只有 FIFO 语义时 实现优先级消费的最佳方式是什么 一般用例是这样一个系统 当队列中存在大量积压消息时 消费者会先接收较高优先级的消息 然后再接收较低优先级的消息 如果给定的单
  • SQL Server 数据库更改工作流程最佳实践

    的背景 我的小组有 4 个 SQL Server 数据库 生产 UAT Test Dev 我在开发环境中工作 当需要升级我一直在处理的对象 表 视图 函数 存储过程 时 我向我的经理提出请求 他将其升级为测试 测试后 她向升级到 UAT 的
  • 如何在 PHP 中获取已连接客户端的 MAC 和 IP 地址?

    我需要知道连接客户端的 MAC 和 IP 地址 如何在 PHP 中执行此操作 服务器IP 您可以从以下位置获取服务器 IP 地址 SERVER SERVER ADDR 服务器MAC地址 对于 MAC 地址 您可以解析以下输出netstat
  • Java中静态变量和方法的作用域

    我对Java中静态方法的使用有一些疑问 我读到很多地方静态变量是独立于实例的 因此是全局的 public class ThirdClass public static var Java public class Second public
  • GIT 有邪恶双胞胎问题吗?

    在 ClearCase 中 当在两个不同版本的目录中找到具有相同名称的两个文件时 如果元素 OID 不同但名称相同 就会出现邪恶孪生 在 GIT 中 SHA1 id 始终是唯一的 并且具有相同名称的文件始终具有不同的 SHA1 id 我们没
  • 使用 Javascript、HTML5、AngularJS 从浏览器打印嵌入的 PDF

    我正在将 Base64 编码的 PDF 作为字符串从我的服务器加载到我的 JavaScript 中 我的客户端应用程序使用 AngularJS HTML5 我的 HTML 看起来像这样 div div 我的 JavaScript 看起来像这
  • 宽格式数据还是长格式数据效率更高?

    我只是好奇 无论解释如何 以长格式或宽格式存储数据是否更有效 我用过object size 确定内存中的大小 但它们没有显着差异 长的在大小方面稍微更有效 并且该值只是估计 除了原始大小之外 我还想知道哪种格式在建模中使用时的操作效率更高