data.table 样本，概率存储在列中

2024-04-23

我有一个数据表，其中存储在列中的离散分布的概率。

例如，dt <- data.table(p1 = c(0.5, 0.25, 0.1), p2 = c(0.25, 0.5, 0.1), p3 = c(0.25, 0.25, 0.8))

我想创建一个新的随机变量列，使用同一行中的概率进行采样。在 data.table 语法中，我想象它的工作方式如下：

dt[, sample := sample(1:3, 1, prob = c(p1, p2, p3))]

如果有一个类似于“pmin”和“pmax”的“psample”函数，那么这将起作用。我能够使用 apply 来完成这项工作，缺点是对于我的真实数据集，这需要比我想要的更长的时间。有没有办法使用 data.table 来完成这项工作？下面给出应用解决方案。

dt[, sample := apply(dt, 1, function(x) sample(1:3, 1, prob = x[c('p1', 'p2', 'p3')]))]

如果您正在选择1:n你可以用sampl.int哪个更快。还apply正在上matrix是比较快的。将两者放入一个函数中psamp甚至更快。

所以，试试这个（我添加了dt[, 1:3]这样添加列后就不会失败）：

psamp <- function(x) sample.int(n=3, size=1, prob=x)
dt[, sample :=apply(as.matrix(dt[, 1:3]), 1, psamp)]

为了稍微摆脱apply我们可以Vectorize psamp并使用do.call。另外——如@IRTFM他在回答中建议——我们应该利用.SD symbol.

psampv <- Vectorize(function(p1, p2, p3) sample.int(n=3, size=1, replace=TRUE, prob=c(p1, p2, p3)))
dt[, sample := do.call(psampv, .SD), .SDcols=c('p1','p2','p3')]

正如建议的那样，将性能提高一个数量级以上@Henrik in comments https://stackoverflow.com/questions/73001429/data-table-sample-with-probabilities-stored-in-columns/73008578#comment128946317_73001429我们可以使用Rcpp。我稍微修改了代码这个答案 https://stackoverflow.com/a/59357190/6574038并使用新的Rcpp::sample，这会给出相同的结果base::sample与相同的set.seed.

#include <Rcpp.h>
// [[Rcpp::export]]
Rcpp::IntegerVector sample_matrix1(Rcpp::NumericMatrix x, Rcpp::IntegerVector choice_set) {
  int n = x.nrow();
  Rcpp::IntegerVector result(n);
  for (int i = 0; i < n; ++i) {
    Rcpp::NumericVector z(x(i, Rcpp::_));
    result[i] = Rcpp::sample(choice_set, 1, false, z)[0];
  }
  return result;
}

Rcpp::sourceCpp("sample_matrix1.cpp")

dt[, sample := sample_matrix1(as.matrix(.SD), 1:3), .SDcols=c('p1','p2','p3')]

基准测试，每次重复 100k*100 次：

Unit: milliseconds
          expr        min         lq       mean     median         uq       max neval cld
      psamp_:= 1195.16708 1259.06558 1327.19581 1311.17878 1349.98905 1515.1187   100   b
     psamp_.SD 1225.90467 1257.37766 1318.74885 1289.27571 1335.07736 1522.3423   100   b
     psamp_set 1181.44985 1256.73204 1320.29317 1301.75657 1335.22009 1491.3870   100   b
 psamp_do.call 1181.93117 1251.45863 1316.23306 1285.85710 1337.06674 1476.8023   100   b
          rcpp   60.73652   67.15291   72.76073   70.47052   73.91629  127.8278   100  a

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

data.table 样本，概率存储在列中的相关文章

R data.frame 从另一个变量选择的变量中获取值，向量化

我收到的数据包含许多类似的变量还有一个附加变量指示哪些变量one我真正想要的那些类似的变量使用循环我可以查找正确的值但是数据很大循环很慢而且看起来这应该是可矢量化的我只是还没弄清楚怎么做编辑所选变量将用作同一数据框中的新变量
使用 Caret 包的测试集的 ROC 曲线

我正在尝试从测试集上的插入符号中获取最佳模型的 ROC 曲线我碰到MLeval包似乎很方便输出非常全面使用几行代码提供了所有需要的指标和图表一个很好的例子在这里 https stackoverflow com a 59134729
Math.random 生成多少熵？

我想生成一个非常大的随机数我不需要这个号码来保证加密安全因此我没有使用crypto getRandomValues https developer mozilla org en US docs Web API RandomSource
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
向图节点添加标签

我使用 visnetwork 库制作了下图 library tidyverse library igraph set seed 123 n 15 data data frame tibble d paste 1 n relations da
R data.table %like% 带有逻辑 AND

我正在尝试构建一个闪亮的搜索引擎应用程序我根据搜索关键字返回 data table DT lt data table field c A B C A C D A D A B A D B C F B D K DT field like A
提取“|”之前的字符串[复制]

这个问题在这里已经有答案了我有一个数据集其中一列如下所示 ABC DEF GHI ABCD EFG HIJK ABCDE FGHI JKL DEF GHIJ KLM GHI JKLM NO PQRS BCDE FGHI JKL 等等我
Shiny + downloadHandler + Openxlsx 不生成xlsx文件

我试图通过 Openxlsx 包生成一个 xlsx 文件其中包含文件内的反应名称和标头输入变量为 ASL 1 和 Year 1 要保存在文件中的对象是反应表 tab 1 它是由应用程序生成的没有任何问题但是当我尝试下载它时浏览器
使用rvest或httr登录网页上的非标准表单

我正在尝试使用 rvest 来抓取需要在表单上输入电子邮件密码登录的网页 rm list ls library rvest Trying to sign into a form using email password url lt ht
Javascript：typeof表示“函数”，但它不能作为函数调用

这次我对 Javascript 真的很困惑 var x Array prototype concat call typeof x function x Uncaught TypeError x is not a function 这里到底发
R中的神经网络包出现大错误

我正在尝试弄清楚如何使神经网络包发挥作用我用我创建的数据及其结果大约 50 行数据和三列第四列是我想要的结果它是通过简单的数学执行如对其他三列求和得出的进行了一些测试到目前为止一切顺利然后我决定将这个包应用到真实数据上我
在 R 中每小时获取在线数据

我想获取天文台每小时更新预报的数据我的一次性数据提取代码如下 library RCurl web lt getURL http www hko gov hk contente htm web lt unlist strsplit web
对 git Push 运行单元测试，对 Pull 请求运行集成测试

在构建 R 包时我们使用 testthat 来编写测试我们有 2 个文件特定包的测试文件特异性R 我们用它来确保所有包继续一起工作并且总体结果良好整体R 当前当我们推送到 github 或通过 Travis 创建 PR 时都会
JAGS 中的柯西先验

我正在使用 rJAGS 构建多级贝叶斯模型并且我想为我的几个参数指定柯西先验有没有办法在 JAGS 中做到这一点或者我需要切换到 STAN 吗我的 JAGS 模型如下我想更换dnorm柯西分布但 JAGS 找不到标准R柯西分布
将行从 0 折叠到 0

对于这样的数据集 Incident ID date product INCFI0000029582 2014 09 25 08 39 45 foo INCFI0000029582 2014 09 25 08 39 48 bar INCFI0
如何将表格与森林图对齐（ggplot2）

我是 R 新手创建了一个森林区间图并在图旁边包含了一个表格其中包含我的置信区间和风险比我的问题是 RR 和 CI 与绘图上的水平网格线不完全对齐我尝试使用此处所示的拼凑解决方案但这似乎对我不起作用 grid arrange 更
在单个图中获取 geom_hex 中的观测值 (Shiny)

我正在尝试创建一个十六进制的交互式图用户可以单击给定的十六进制并接收分组在该单击的十六进制中的原始数据帧的所有观察结果的列表下面是一个 MWE 看起来非常接近我的目标我正在使用 Shiny hexbin 和 ggplotly app
在闪亮的应用程序中选择文件夹或文件夹目录

我在使用闪亮时遇到问题我想选择保存我要在应用程序中使用的所有文件的文件夹方法是 1 将工作目录设置为该文件夹路径或 2 将此文件夹内的所有 csv 数据上传到我的应用程序以进行进一步处理 1 我找到了shinyFiles包但它非常非
用任意数量的空格分割字符串

我有以下字符串 1 10012 CAB UNCH CAB 我想按间隙分割该字符串但间隙的空格数量是可变的有没有办法使用strsplit 函数来分割这个字符串并返回一个包含 8 个元素的向量该向量已删除所有间隙一行代码是首选只需使用
将多个文件读取到多个数据框中

在d 文件夹中我有很多Stata文件例如data aa 1 dta data aa 2 dta data aa 3 dta data bb 1 dta data bb 2 dta data bb 3 dta data cc 1 dta

随机推荐

在 Scala 中的 List[Either] 上使用 flatMap

Either从 Scala 2 12 开始是右偏的这使得它可以在 for yield 块中使用而无需投影就像Option 但显然这还不足以表现得像Option当与flatMap object Main def main args Ar
如何使用routing.yml中的参数进行重定向？

在routing yml中你可以执行以下操作 redirect old url to new pattern old pattern defaults controller FrameworkBundle Redirect urlRedir
是否有可用的 SQL Server 2008 数据库更改管理 (MIgrations) 工具？

我们正在奔跑塔伦蒂诺 http code google com p tarantino wiki DatabaseChangeManagement在 Nant 构建脚本中但我们正在获得一些新硬件并利用升级到 SQL Server 2008
斯卡拉。浮点数的奇怪结果

为什么减法时会得到奇怪的结果2 99999 from 3 scala gt math sqrt 3 res0 Double 1 7320508075688772 scala gt math pow res0 2 res1 Double 2
Qunit qunit-fixture div 被删除，使用 Resharper 8 运行单元测试

我遇到一个问题当我在 ReSharper 8 下运行 Qunit 进行测试时尝试在 div id qunit fixture 中附加或设置 HTML 代码时由于某种原因 div id qunit fixture 被删除我需要测试文档就
Istio 的 `DestinationRule` 与 Kubernetes `Service` 之间的区别？

我刚刚阅读了 istio 1 0 0 的文档特别是它的概念我想了解一件事尤其是DestinationRule https istio io docs concepts traffic management rule configura
时钟中的时间显示与r中的xy散点图

我想创建以下类型的情节但不知道是否有任何包已经存在因为我找不到数据 myd lt data frame X 1 5 Y c 0 8 0 6 0 7 0 75 0 1 clockd c 12 05 12 25 12 45 1 30 2
如何从嵌套 Jar 中提取 .class 文件？

我有一个名为的 Jar 文件外部Jar jar 其中包含另一个名为的罐子内Jar jar 此 InnerJar 包含 2 个名为的文件测试1 类测试2 类现在我想提取这两个文件我尝试了一些代码但它不起作用 class Nest
XSLT 如何用 div 包装每 3 个元素？

我有一些 XML 文档
java对象间通信

还在学习Java Swing 又让我问了这个问题但这确实是一个普遍的面向对象问题如果我有一个主类包含 main 它会创建一个执行某些操作的新对象 A 主类现在具有对该对象的引用对象 B 如何访问该对象的属性我能想到的唯一方法是让主
JAXB javax.xml.bind.PropertyException

当我尝试读取包含一些日语字符的 XML 文件时出现以下错误 javax xml bind PropertyException jaxb encoding at javax xml bind helpers AbstractUnmarsha
是否有用于 C 和 C++ 的 lint 工具来检查格式？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个被很多人接触过的代码库虽然大多数人都努力保持代码的良好格式例如一致的缩进和使用大括号但有
如何在 dotnet core web api 中设置起始页？

我尝试使用 dotnet core web api 构建一个 web 应用程序但我不知道如何将 index html 设置为起始页这可以使用 dotnet Framework Web api 轻松完成我尝试使用app UseDefau
Docker-compose Predis 不通过 PHP 连接

我正在尝试使用 docker compose 将 PHP 与 redis 连接 docker compose yml version 2 services redis image redis 3 2 2 php image company
无法在 Heroku Cedar 上使用 Rails 3.1、Compass、Sass、Blueprint

大部分情况下我都遵循规定的方向here http tesoriere com 2011 08 08 migrating from rails 3 1 rc4 to rc5 using heroku 27s cedar stack also
Server.UrlEncode 和 Server.UrlDecode

我不知道为什么我们要使用Server UrlEncode Server UrlDecode 在 QueryString 中我们可以看到 URL 中的任何内容那么为什么我们要对它们进行编码或解码呢 URLEncode 方法应用 URL 编
RStudio：使用存储在网络驱动器上的项目中的第一条指令意外调用“dir.create()”

首先对缺乏可重现的示例表示歉意但我无法真正提供一个因为我认为问题出在我的网络设置中请将这个问题视为调试问题的帮助请求在 RStudio 中打开存储在网络驱动器上的项目并运行第一条指令无论是包加载还是什至a lt 1 我在控制台中
如何避免R中as.numeric中的值四舍五入？ [复制]

这个问题在这里已经有答案了 list1 as numeric 133601182 5 133601183 它正在四舍五入值您可以尝试以下吗 list1 as numeric 133601182 5 sprintf f list1 或者将输
tomcat.conf 位于哪里？

我找不到我的tomcat conf 我看过 etc tomcat6 但它不在那里也不在 usr share tomcat6 我在哪里可以找到tomcat conf在 Linux Ubuntu 中 Try sudo updatedb loc
data.table 样本，概率存储在列中

我有一个数据表其中存储在列中的离散分布的概率例如 dt lt data table p1 c 0 5 0 25 0 1 p2 c 0 25 0 5 0 1 p3 c 0 25 0 25 0 8 我想创建一个新的随机变量列使用同一行中的

data.table 样本，概率存储在列中

data.table 样本，概率存储在列中 的相关文章

随机推荐

热门标签

data.table 样本，概率存储在列中的相关文章