迭代或惰性储层采样

2024-01-06

我非常熟悉使用储层采样在一次数据传递中从一组未确定的长度中进行采样。在我看来，这种方法的一个限制是，在返回任何结果之前，它仍然需要遍历整个数据集。从概念上讲，这是有道理的，因为必须允许整个序列中的项目有机会替换先前遇到的项目以获得统一的样本。

有没有办法能够在评估整个序列之前产生一些随机结果？我正在考虑一种适合 python 伟大的 itertools 库的惰性方法。也许这可以在给定的容错范围内完成？如果您对这个想法有任何反馈，我将不胜感激！

为了稍微澄清一下这个问题，这张图总结了我对不同采样技术的内存与流式权衡的理解。我想要的是属于以下类别的东西流采样，我们事先不知道人口的长度。

显然，在先验不知道长度的情况下仍然获得统一的样本似乎是矛盾的，因为我们很可能将样本偏向总体的开始。有没有办法量化这种偏差？是否需要做出权衡？有人有聪明的算法来解决这个问题吗？

如果您事先知道可迭代将产生的项目总数population，可以产生样本的项目population当你来到他们身边时（不仅仅是到达终点后）。如果您事先不知道总体规模，这是不可能的（因为无法计算样本中任何项目的概率）。

这是一个执行此操作的快速生成器：

def sample_given_size(population, population_size, sample_size):
    for item in population:
        if random.random() < sample_size / population_size:
            yield item
            sample_size -= 1
        population_size -= 1

请注意，生成器按照它们在总体中出现的顺序生成项目（而不是随机顺序，例如random.sample或大多数水库采样代码），因此样本的切片不会是随机子样本！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

迭代或惰性储层采样的相关文章

如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

Nativecript Fontawesome 5 iPhone 无法工作

我正在尝试让 Font Awesome 5 在 Android 上运行但它不起作用使用https github com NathanWalker nativescript ngx fonticon https github com Na
ListView ArrayAdapter，将子项隐藏在 Row 中？

我觉得有点愚蠢因为我找不到这个问题的答案这让我觉得我实际上是在问wrong问题然而这里我有一个列表视图和一个在 xml 中定义的 listviewitem 有几个字段没有什么特别的全部设置为可见然后我使用自定义 Array
使用 GDB 调试模板

My gdb是 GNU gdb Red Hat Linux 6 3 0 0 1 162 el4rh 我无法调试模板如何使用此调试器调试模板如果您的问题只是在代码中放置断点这是一个小片段例如 main cpp include
32/64 位的 MSBuild 和 $(ProgramFiles) 问题

我编写了一个自定义 MSBuild 任务它调用SubWCRev exe 一个可执行文件通常驻留在C Program Files TortoiseSVN bin 无论是 32 位还是 64 位因为 TortoiseSVN 提供这两个版
隐藏地图注释而不删除它们

使用 MKMapView 我加载了一堆注释并且我希望能够过滤使用分段控件显示的注释我使用带有类型变量的自定义注释这样我就可以将它们彼此区分开来但我无法找到一种方法来随意隐藏和显示注释视图的子集当然可以试试这个 Objective
在ajax请求中设置$_SESSION

我有这个 Jquery Ajax 函数可以在网页中登录 url ajax type POST url url data success function jsonResponse var json JSON parse jsonRespon
AWS IoT - 通过.Net、REST 和证书访问影子

为了学习 AWS IoT 我创建了一些事物一个策略我什至能够使用 IoT CLI 来列出事物 or 列表策略我什至可以通过 CLI 更新影子更新事物通过 CLI 命令但是一旦我尝试通过 REST GET POST 请求通过 Ne
如何使用 Homebrew 在 osx macOS Mojave 上安装 Java 8？

目前某些应用程序仍然需要 Java 8 例如 Android SDK Android Studio Jenkins 离子 With brew install java the latest版本已安装但是如何安装Java 8呢旧的 Or
pre 内的代码在 IE8 上排成一行

我试图从 a 中获取价值textarea并将其放入一个pre tag 它在 chrome 和 mozilla 上工作正常但在 IE8 上整个内容保留在一行中pre tag jsbin链接 http jsbin com uwunug 4
如何在dojo中加载一个不是模块的JS文件？

首先我要说的是我是一个 javascript 和 dojo 菜鸟不过我一直在使用 D O H 框架为我的 js 代码编写一些单元测试我注意到的一件事是该框架似乎没有办法模拟 XHR 请求所以我决定使用 sinon 来进行嘲笑这是
Swift 协议专用通用协议

是否有可能有一个专门针对通用协议的协议我想要这样的东西 protocol Protocol RawRepresentable typealias RawValue Int 这确实可以编译但是当我尝试访问init or rawValue从
在批处理脚本中实施“which”命令

我试图制作一个像这样的脚本which 所以我想检查这个命令是内部命令还是外部命令或两者兼而有之我尝试执行程序但是当程序例如 exe 不正确时我的程序退出时出现错误所以我尝试调用help对于这个程序但现在如果我尝试检查例如echo
如何使用 Charles Proxy 设置 Android Lollipop 模拟器？

我一直在遵循其他问题的指示例如如何在 Windows 上使用 Charles Web Proxy 和最新的 Android 模拟器配置 SSL 证书 https stackoverflow com questions 3976728 ho
JLabel 中有两个图标？

我在 JLabel 中有一个图标如下所示是否可以在颜色图标和文本之间添加另一个图标例如代表国家的国旗例如我想在红色图标和US 谢谢是的在容器标签中使用嵌套的 JLabel 和 BoxLayout JLabel containe
唯一性约束（逗号、分隔、属性）如何与 CoreData 中的 Swift 配合使用？

我刚刚注意到 CoreData 中的每个唯一性约束可以有多个属性逗号分隔属性但我实际上不知道在一个约束中拥有多个属性会做什么这是否意味着如果其中任何一个是唯一的那么约束就不会被打破 Apple 文档并不是特别有帮助约束按照配
子类化 ctypes - Python

这是我在互联网上找到的一些代码我不确定它是如何使用的我简单填写了members使用枚举键值并且它可以工作但我很好奇这个元类是关于什么的我假设它与 ctypes 有关但我找不到关于子类化 ctypes 的太多信息我知道 Enum
将当前 URL 的结束字符替换为小书签

有没有办法通过 javascript bookmarklet 将 currentURL 中最后一个反斜杠之后的所有字符替换为另一个字符串我正在对 Sharepoint 网站进行大量审核工作并且必须通过在 URL 末尾输入字符串来手动查看
在 C++ 中使用 MinGW 嵌入 python3.6 链接失败

尝试在Win10 64位系统上将python3 6嵌入到C 中 Python 的安装方式是python 3 6 1 amd64 exe CMakeList txt 显示如下 cmake minimum required VERSION 3
计算嵌套 mongodb 文档中的出现次数并保留组

我有这些文件 question 1 answer Foo question 1 answer Foo question 1 answer Bar question 2 answer Foo question 2 answer Foobar
迭代或惰性储层采样

我非常熟悉使用储层采样在一次数据传递中从一组未确定的长度中进行采样在我看来这种方法的一个限制是在返回任何结果之前它仍然需要遍历整个数据集从概念上讲这是有道理的因为必须允许整个序列中的项目有机会替换先前遇到的项目以获得统一的样本

迭代或惰性储层采样

迭代或惰性储层采样 的相关文章

随机推荐

热门标签

迭代或惰性储层采样的相关文章