从低均值泊松分布中绘制数字的性能

2024-03-17

为了在C++中从泊松分布中抽取随机数，通常建议使用

RNG_type rng;
std::poisson_distribution<size_t> d(1e-6);
auto r = d(rng);

每次呼叫时std::poisson_distribution对象，整个随机位序列被消耗（例如 32 位标准::mt19937 http://www.cplusplus.com/reference/random/mt19937/, 64 位为std::mt19937_64 http://www.cplusplus.com/reference/random/mt19937_64/）。让我惊讶的是，如此低的平均值（mean = 1e-6），绝大多数时候，只需几个位就足以确定要返回的值为 0。然后可以缓存其他位以供以后使用。

假设设置为 true 的位序列与泊松分布的高返回值相关联，当使用以下平均值时1e-6，任何不以 19 个 true 开头的序列都必然返回零！的确，

1 - 1/2^19 < P(0, 1e-6) < 1 - 1/2^20

, where P(n, r)表示抽签的概率n来自均值的泊松分布r。不浪费位的算法将在一半的时间使用一位，四分之一的时间使用两位，八分之一的时间使用三位，......

是否有一种算法可以通过在绘制泊松数时消耗尽可能少的位来提高性能？与其他方法相比，是否有其他方法可以提高性能std::poisson_distribution当我们考虑低均值时？

回应@Jarod42 的评论，他说

想知道使用更少的位数是否不会破坏等概率......

我不认为这会破坏等概率。在一次模糊的测试中，我用简单的伯努利分布考虑了同样的问题。我以概率抽样真实1/2^4并以概率采样错误1 - 1/2^4。功能drawWithoutWastingBits一旦在缓存和函数中看到 true 就停止drawWastingBits无论这些位是什么，都会消耗 4 位。

#include <iostream>
#include <vector>
#include <string>
#include <algorithm>
#include <random>

bool drawWithoutWastingBits(std::vector<bool>& cache, size_t& cache_index)
{
    /* 
        Get a true with probability 1/2^4 (=1/16=0.0625) and a false otherwise
    */

    size_t nbTrues = 0;
    while (cache[cache_index])
    {
        ++nbTrues;
        ++cache_index;
        if (nbTrues == 4)
        {
            return true;
        }
    }
    ++cache_index;
    return false;
}


bool drawWastingBits(std::vector<bool>& cache, size_t& cache_index)
{
    /* 
        Get a true with probability 1/2^4 (=1/16=0.0625) and a false otherwise
    */

    bool isAnyTrue = false;
    for (size_t i = 0 ; i < 4; ++i)
    {
        if (cache[cache_index])
        {
            isAnyTrue = true;
        }
        ++cache_index;
    }
    return !isAnyTrue;
}

int main()
{
    /*
        Just cache a lot of bits in advance in `cache`. The same sequence of bits will be used by both function.
        I am just caching way enough bits to make sure they don't run out of bits below
        I made sure to have the same number of zeros and ones so that any deviation is caused by the methodology and not by the RNG
    */

    // Produce cache
    std::vector<bool> cache;
    size_t nbBitsToCache = 1e7;
    cache.reserve(nbBitsToCache);
    for (size_t i = 0 ; i < nbBitsToCache/2 ; ++i)
    {
        cache.push_back(false);
        cache.push_back(true);
    }
    // Shuffle cache
    {
        std::mt19937 mt(std::random_device{}());
        std::shuffle(cache.begin(), cache.end(), mt);
    }


    // Draw without wasting bits
    {
        size_t nbDraws = 1e6;
        size_t cache_index = 0;
        std::pair<size_t, size_t> outcomes = {0,0};
        for (size_t r = 0 ; r < nbDraws ; ++r)
        {
            drawWithoutWastingBits(cache, cache_index) ? ++outcomes.first : ++outcomes.second;
            assert(cache_index <= cache.size());
        }   

        assert(outcomes.first + outcomes.second == nbDraws);
        std::cout << "Draw Without Wasting Bits: prob true = " << (double)outcomes.first / nbDraws << "\n";
    }


    // Draw wasting bits
    {
        size_t nbDraws = 1e6;
        size_t cache_index = 0;
        std::pair<size_t, size_t> outcomes = {0,0};
        for (size_t r = 0 ; r < nbDraws ; ++r)
        {
            drawWastingBits(cache, cache_index) ? ++outcomes.first : ++outcomes.second;
            assert(cache_index <= cache.size());
        }   

        assert(outcomes.first + outcomes.second == nbDraws);
        std::cout << "Draw Wit Wasting Bits: prob true = " << (double)outcomes.first / nbDraws << "\n";
    }
}

可能的输出

Draw Without Wasting Bits: prob true = 0.062832
Draw Wit Wasting Bits: prob true = 0.062363

德夫罗耶的非均匀随机变量生成 http://luc.devroye.org/rnbookindex.html，第 505 页和第 86 页，提到了顺序搜索算法的反演。

根据该算法，如果您知道mean远小于 1，那么如果生成均匀随机变量u在 [0, 1] 中，泊松变量将为 0，如果u <= exp(-mean)，否则大于 0。

如果平均值较低并且您可以容忍近似分布，那么您可以使用以下方法（参见“附录 A”）差分隐私的离散高斯 https://arxiv.org/pdf/2004.00010.pdf"):

Express mean以有理数的形式，以有理数的形式numer/denom。例如，如果mean是一个固定值，那么numer and denom可以相应地预先计算，例如在编译时。
随机生成伯努利(numer / denom) 数字（生成 1 的概率numer / denom或 0 否则）。如果 1 是这样生成的，请使用伯努利重复此步骤（numer / (denom * 2)), 伯努利(numer / (denom * 3)），依此类推，直到这样生成0。使用一种可以最大限度地减少比特浪费的算法生成这些数字，例如 Lumbroso 的 Fast Dice Roller 论文（2013 年）附录 B 中提到的算法，或者从那里修改并在我的章节中给出的“ZeroToOne”方法布尔条件 https://github.com/peteroupc/peteroupc.github.io/blob/master/randomfunc.md#boolean-truefalse-conditions。也可以看看这个问题 https://stackoverflow.com/questions/60777414/uniformly-distributed-bit-sequence.
如果步骤 2 产生偶数个 1，则泊松变量恰好为 0。
如果步骤 2 产生奇数个 1，则泊松变量大于 0，并且需要“较慢”的算法，仅对大于 0 的泊松变量进行采样。

例如，假设平均值为 1e-6 (1/1000000)，则生成伯努利 (1/1000000) 数，然后生成伯努利 (1/2000000) 等。直到以这种方式生成 0。如果生成偶数个，则泊松变量恰好为 0。否则，泊松变量为 1 或更大，并且需要“较慢”的算法。

下面的算法就是一个例子，它基于第 505 页和第 86 页中的算法，但仅对泊松变量 1 或更大的样本进行采样：

METHOD Poisson1OrGreater(mean)
 sum=Math.exp(-mean)
 prod=sum
 u=RNDRANGE(sum, 1)
 i=0
 while i==0 or u>sum
   prod*=mean/(i+1)
   sum+=prod
   i=i+1
 end
 return i
END METHOD

不过，这种方法不是很稳健，特别是因为它使用接近 1 的数字（浮点空间更稀疏）而不是接近 0 的数字。

请注意，总和为n独立泊松(mean) 随机变量是泊松(mean*n）分发（第 501 页）。因此，本答案中的上述讨论适用于n泊松随机变量只要n有时它们的平均值仍然很小。例如，要生成均值为 1e-6 的 1000 个泊松随机变量的总和，只需生成均值为 0.001 的单个泊松随机变量。这将大大节省对伪随机数生成器的调用。

还有另一种方法可以生成低均值（1 或更少）的泊松变量。 Duchon 和 Duvignau 在“在增长的均匀排列中保留长度为 k 的循环数”中对此进行了描述，组合学电子期刊 23(4)，2016。

首先，生成一个 Poisson(1) 随机变量x = Poisson1()使用下面给出的算法，该算法仅使用整数算术（其中RNDINT(a)生成 [0,a]):

METHOD Poisson1()
  ret=1; a=1; b=0
  while true // until this method returns
    j=RNDINT(a)
    if j<a and j<b: return ret
    if j==a: ret=ret+1
    else
      ret=ret-1; b=a+1
    end
    a=a+1
  end
END METHOD

Now let mean是所需的平均值。抛硬币x次，其中硬币正面朝上的概率等于mean。（换句话说，生成一个二项式（x, mean）随机变量。）正面的数量是泊松（mean）随机变量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从低均值泊松分布中绘制数字的性能的相关文章

与 for_each 或 std::transform 一起使用时，如何调用 C++ 函子构造函数

我以前从未使用过 C 函子所以我只是想了解它们是如何工作的例如假设我们有这个函子类 class MultiplyBy private int factor public MultiplyBy int x factor x int ope
C#.Net 邮件将进入垃圾邮件文件夹

我正在从 ASP net Web 应用程序发送电子邮件邮件发送成功没有失败但大多数都进入了垃圾邮件文件夹请帮助我克服垃圾邮件过滤器我的发送邮件代码 public void SendMail string FromAddress s
EntityHydrate 任务失败

我最近安装了 Visual Studio 11 Beta 和 Visual Studio 2010 之后我无法在 Visual Studio 2010 中构建依赖于 PostSharp 的项目因此我卸载了 Visual Studio 1
在 C++ 代码中转换字符串

我正在学习 C 并开发一个项目来练习但现在我想在代码中转换一个变量字符串就像这样用户有一个包含 C 代码的文件但我希望我的程序读取该文件并插入将其写入代码中如下所示 include
在 Mono 中反序列化 JSON 数据

使用 Monodroid 时是否有一种简单的方法可以将简单的 JSON 字符串反序列化为 NET 对象 System Json 只提供序列化不提供反序列化我尝试过的各种第三方库都会导致 Mono Monodroid 出现问题谢谢 f
Android NDK 代码中的 SIGILL

我在市场上有一个 NDK 应用程序并获得了有关以下内容的本机崩溃报告 SIGILL信号我使用 Google Breakpad 生成本机崩溃报告以下是详细信息我的应用程序是为armeabi v7a with霓虹灯支持它在 NVIDI
条件类型定义

如果我有一小段这样的代码 template
C# 获取数据表中所有重复行的计数

我通过运行存储过程来填充数据集并且从数据集中填充数据表 DataSet RawDataSet DataAccessHelper RunProcedure storedprocedureName this will just return
在 azure blob 存储中就地创建 zip 文件

我将文件存储在 Blob 存储帐户内的一个容器中我需要在第二个容器中创建一个 zip 文件其中包含第一个容器中的文件我有一个使用辅助角色和 DotNetZip 工作的解决方案但由于 zip 文件的大小最终可能达到 1GB 我担心在进
我们可以通过指针来改变const定义的对象的值吗？

include
对于 C# Express 用户来说，有哪些好的工具可以识别可能重复的代码？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案也可以看看有什么工具可以检查重复的 VB NET 代码吗 https stackoverflow c
MySQL 连接器 C++ 64 位在 Visual Studio 2012 中从源代码构建

我正在尝试建立mySQL 连接器 C 从源头在视觉工作室2012为了64 bit建筑学我知道这取决于一些boost头文件和C 连接器跑步CMake生成一个项目文件但该项目文件无法编译因为有一大堆非常令人困惑的错误这些错误可能与包含
使用 gcc 时在头文件中查找定义的好方法是什么？

在使用 gcc 时有人有推荐的方法在头文件中查找定义吗使用 MSVC 时我只需右键单击并选择转到定义这非常好我使用过 netbeans gcc 它确实有代码帮助包括到定义的超链接所以这是一种选择但是我想知道是否有任何其他
Unity3D - 将 UI 对象移动到屏幕中心，同时保持其父子关系

我有一个 UI 图像它的父级是 RectTransform 容器该容器的父级是 UI 面板而 UI 面板的父级是 Canvas 我希望能够将此 UI 图像移动到屏幕中心即画布同时保留父级层次结构我的目标是将 UI 图像从中心动画
在 C# 的 WebAPI 中的 ApiController 上使用“传输编码：分块”提供数据

我需要服务分块传输使用编码数据API控制器因为我无权访问HttpContext or the Http请求我有点不知道在哪里写入响应以及在哪里刷新它设置如下 public class MyController ApiControlle
Streamwriter 覆盖 txt 文件中的文本

有没有什么方法可以重新打开流写入器而不创建新的写入对象因为此时当调用 WriteOdd 时 streamwriter 正在覆盖在它之前调用的 WriteEven public void WriteEven StreamWriter wr
如何在 C# 中获取 CMD/控制台编码

我需要指定正确的代码页来使用 zip 库打包文件正如我所见我需要指定控制台编码在我的例子中为 866 C Users User gt mode Status for device CON Lines 300 Columns 130 K
如何为有时异步的操作创建和实现接口

假设我有数百个类它们使用计算方法实现公共接口一些类将执行异步例如读取文件而实现相同接口的其他类将执行同步代码例如将两个数字相加为了维护和性能对此进行编码的好方法是什么到目前为止我读到的帖子总是建议将异步等待方法冒泡给调
如何在 ASP.NET Core 中注入泛型的依赖关系

我有以下存储库类 public class TestRepository Repository
嵌入式linux编写AT命令

我在向 GSM 模块写入 AT 命令时遇到问题当我使用 minicom b 115200 D dev ttySP0 term vt100 时它工作完美但我不知道如何在 C 代码中做同样的事情我没有收到任何错误但模块对命令没有反应有

随机推荐

持有 Singleton 引用的活动会泄漏内存吗？

如果我有这样的代码 public class MyActivity extends Activity private SingletonClass singletonInstance Override protected void onCr
Weka：如何在 java 中获取测试实例的预测值？

我已经成功训练了一个分类器 bayesnet 并构建了一个测试集 ARFF 格式该测试集有一个实例有一个缺失值 Evaluation eTest new Evaluation trainingInstance eTest evaluat
Typescript 和 JQuery 编译错误：找不到名称“$”

我正在使用 jquery 测试 typescript 但是当我编译 test ts 文件时它总是给我一个错误指示找不到名称我已经导入了 jquery 并添加了它的定义参考如果我使用import require jquery in
如何使用 XElement 在 C# 中序列化带有 List 的对象？

我有不同类型成员的对象如下所示 public class MyObject public string Str1 string Empty public MyEnums Enum1 E1 MyEnums Enum1 Unknown pub
python中html解析和网络爬行有多大区别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要从 django 网站中的网站获取一些数据现在我很困惑是否应该使用 python 解析库或网络爬行库搜索引擎库也属于同一类别
未找到获取命令：rasa 使用 rasa 命令

我已经安装了rasa using pip3 install rasa 当我尝试使用时rasa命令如 rasa init 我收到 zsh 错误找不到命令 rasa 错误我在 Mac OS Catalina 上使用 Python版本2 7
将 Mayavi 安装到 Anaconda 中

我想将 Mayavi 安装到我的 anaconda 安装中因为我运行了以下命令但收到一条错误消息我不知道如何处理 user Kubuntu source activate myenv myenv user Kubuntu conda
仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样

我有一个高度不平衡的数据集 99 5 0 5 我想使用以下命令对随机森林模型执行超参数调整sklearn s RandomizedSearchCV 我希望使用 SMOTE 对每个训练折叠进行过采样然后在最终折叠上评估每个测试保持原始分布
Golang SSH 到思科无线控制器并运行命令

我正在尝试通过 Go SSH 到 Cisco 无线控制器使用 Go 的golang org x crypto ssh库以编程方式配置接入点我遇到的问题是在 Go 中正确解析控制器 CLI 例如这是控制器的典型 SSH 登录 ssh
找不到 Angular Material 核心主题

我已将 Angular Material2 包添加到我的项目中但是我在浏览器中收到以下警告消息我创建了一个自定义 scss 文件并导入了包但它仍然抛出警告消息找不到 Angular Material 核心主题大多数 Materi
表中所有列的边框高度相等

I am having 3 columns in a row 我需要将货物正确描述和每包净数量中间的边框延伸到平行列标记和包裹数量边框高度 Used to table height 100 table height 100 Demo h
如何查看/监视用户界面上的控件正在触发哪些事件

我正在 C 中使用 winforms 创建一个 GUI 所有控件都有大量事件我想知道哪些事件被触发以及何时被触发一种方法是在每个事件处理程序上放置调试语句但这需要太多工作在 Visual Studio 2008 2010 中是否有任
随机 PHP FastCGI / 连接被对等方重置 / 不完整的标头

我一直在随机500 Internal Server我在各种共享主机上基于 PHP MySQL 的网站上出现错误我在共享 Linux 服务器上通过 CGI FastCGI 使用 PHP 5 2 17 当我查看日志时我看到以下内容 erro
多个独立maven项目的通用测试数据

我有一个 Maven 项目可以将特定格式的文本文件转换为另一种格式为了进行测试我在 src test resources 中放入了大量的测试文件我还有另一个项目它使用第一个项目进行转换然后对输出格式执行一些额外的操作我还想针对
MongoDB：如何计算文档中键的数量？

假设一个文档是 a 1 b 1 c 2 z 2 如何计算该文档中键的数量谢谢如果通过聚合框架使用 MongoDB 3 6 及更高版本则完全有可能使用 objectToArray https docs mongodb com manu
在 matplotlib 中将多个饼图分解在一起

我真的很喜欢 matplotlib 饼图上的爆炸选项我希望能够集体爆发我正在绘制许多小切片分为 3 或 4 类我想将所有小切片作为组爆炸在一起我认为这并不完全清楚所以我呼吁我严重缺乏绘制基本形状的能力并制作这张图片来展示
如何使azure应用程序服务信任OnPrem CA颁发的证书？

我正在尝试在 https 协议下使用来自 Azure APP 服务的本地 Web 服务当我这样做时我收到了错误经验证远程证书无效程序这是有意义的因为默认情况下 Azure 不必信任该服务而是提供由 OnPrem CA 颁发的证
使用 Swing 的 Java 聊天应用程序（概念）

我想使用 Swing 作为界面用 Java 编写一个聊天应用程序我想出了一个主意在疯狂程序员 https stackoverflow com users 992484 madprogrammer 但我不确定这是否是解决此问题的最佳方法
如何在linux下用c写一个http1.0代理服务器？

我必须开发仅在 Linux 和 c 中使用 HTTP 1 0 的代理服务器我需要一些提示才能开始开发我假设您对使用 linux 和 c 语言有信心没有任何提示否则不要从开发代理开始阅读并理解RFC 1945 HTTP 1 0 ht
从低均值泊松分布中绘制数字的性能

为了在C 中从泊松分布中抽取随机数通常建议使用 RNG type rng std poisson distribution

从低均值泊松分布中绘制数字的性能

从低均值泊松分布中绘制数字的性能 的相关文章

随机推荐

热门标签

从低均值泊松分布中绘制数字的性能的相关文章