使用采样数据时CRC32函数如何工作？

2024-01-09

我想问你关于Python中以下短函数的解释。

from zlib import crc32

def test_set_check(identifier, test_ratio):
    return crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32

上述函数应与以下函数相同：

import hashlib

def test_set_check(identifier, test_ratio, hash=hashlib.md5):
    return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio

这两个函数都应该用于数据采样（选择表中的某些行）。例如，如果test_ratio是 0.2 那么这意味着我想要采样 20% 的数据，该值低于或等于 51（~256 的 20%）。我理解第二个函数是如何工作的，但我不明白第一个函数。你能给我解释一下第一个功能吗？我不明白以下部分：crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32

The crc32函数输出一个无符号的 32 位数字，代码测试 CRC 值是否低于 test_ratio 乘以最大 32 位数字。

The & 0xffffffff面具只是为了确保与 Python 2 和 3 的兼容性 https://docs.python.org/3/library/zlib.html#zlib.crc32。在 Python 2 中，相同的函数可以返回signed整数，范围从 -(2^31) 到 (2^31) - 1，用0xffffffffmask 将值标准化为带符号的值。

所以基本上，任一版本都将标识符转换为整数，并使用哈希使该整数在一个范围内合理均匀分布；对于 MD5 哈希值来说，最后一个字节的值介于 0 和 255 之间；对于 CRC32 校验和，该值介于 0 和 (2^32)-1 之间。然后将该整数与整个范围进行比较；如果低于test_ratio * maximum截止点被视为已选择。

您还可以使用随机函数，但是每次选择样本时您都会得到不同的输入子集；通过对标识符进行哈希处理，您可以生成持续的子集。这两种方法之间的区别在于它们会生成不同的子集，因此您可以同时使用这两种方法从同一输入中选取多个独立的子集。

Compare:

>>> import numpy as np
>>> from zlib import crc32
>>> from hashlib import md5
>>> import random
>>> identifier = np.int64(random.randrange(2**63))
>>> md5(identifier).digest()[-1]
243
>>> md5(identifier).digest()[-1] / 256  # as a ratio of the full range
0.94921875
>>> crc32(identifier)
4276259108
>>> crc32(identifier) / (2 ** 32)   # ratio again
0.9956441605463624
>>> identifier = np.int64(random.randrange(2**63))  # different id to compare
>>> md5(identifier).digest()[-1] / 256  # as a ratio of the full range
0.83203125
>>> crc32(identifier) / (2 ** 32)   # ratio again
0.10733163682743907

因此两种不同的方法会产生不同的输出，但只要 CRC32 和 MD5 哈希值合理地产生均匀分布哈希值，那么两者都会给你 20% 的采样率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用采样数据时CRC32函数如何工作？的相关文章

Django：模拟模型上的字段

如何将模拟对象分配给该模型上的用户字段无论如何都要绕过 SomeModel user 必须是 User 实例检查吗 class SomeModel models Model user models ForeignKey User 我不会
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
如何自动转换十六进制代码以将其用作 Java 中的 byte[]？

我这里有很多十六进制代码我想将它们放入 Java 中而不需要向每个实体附加 0x 喜欢 0102FFAB 和我必须执行以下操作 byte test 0x01 0x02 0xFF 0xAB 我有很多很长的十六进制代码有什么办法可以自动做
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

按日期范围和分类变量合并数据集

假设我有两个数据集一个包含带有开始结束日期的促销列表另一个包含每个计划的每月销售数据 promotions data frame start date as Date c 2012 01 01 2012 06 14 2012 02 0
汉字显示为问号

之前已经问过这个问题但我不知道出了什么问题我正在使用 phantomjs 打印 pdf render 呈现的页面基本上是具有以下属性的本地静态站点 font normal 17px helvetica arial verdana san
使用 htaccess 在标头内设置文件名

我们有一个从服务器下载文件的应用程序下载后需要保存它因为它使用来自响应标头的文件名参数当我使用标准 PHP 时download php id downloadID我可以毫无问题地设置标题现在的任务是在客户端服务器上没有任何可用的
我应该在 Promise 中使用 `return` 吗？

function saveToTheDb value return new Promise function resolve reject db values insert value function err user remember
OpenGL中的glRotate是旋转相机还是旋转世界轴还是旋转模型对象？

我想知道是否glRotate旋转相机世界轴或对象通过例子解释它们有何不同相机 OpenGL 中没有相机世界轴 OpenGL 中没有世界或物体 OpenGL 中没有对象使困惑 OpenGL 是一个绘图系统可使用点线和三角形进行
为了记录目的而捕获 RuntimeException 是一种不好的做法吗？

我发现捕获 RuntimeException 通常被认为是不好的做法因为它们无法纠正并且通常是程序员错误然而我们有一个疯狂的大型应用程序其中任何部分的更改都可能产生不可预见的后果是的这本身就是一个问题现在我们开始在应用程
在android中使用Smack的ejabberd连接给出连接超时错误

您好我们已经从以下位置下载了 ejabberd this https docs ejabberd im admin installation install on windows 域是localhost我们已将 xmppDomain 设置
使用 Assert 注释的 Symfony2 验证不起作用

Update 由于我没有得到任何答案因此我使用一个更简单的示例重写了整个帖子希望这有助于揭露问题我在表单验证方面遇到问题我可以让 NotBlank 断言起作用但 Type 对我不起作用首先这是代码 Entity LineIte
使用 phantomjs 获取动态内容，并可能存在 scrapy 和 selenium 竞争条件

首先这是这里的后续问题更改正在运行的蜘蛛数量 scrapyd https stackoverflow com questions 24960303 change number of running spiders scrapyd 我使用
php/regex：“linkify”博客标题

我正在尝试编写一个简单的 PHP 函数它可以接受像这样的字符串 Topic Some stuff Maybe some more it s my stuff 并返回 topic some stuff maybe some more its
java中如何获取JSON对象的所有节点和子节点？

我想获取以下 JSON 对象的所有节点例如结果身份付款等 result identification transactionid Merchant Assigned ID uniqueid d91ac8ff6e9945b8a125d6
lm() 函数在 SolusOS Linux 上给出的结果与在 Windows 上不同

I run SolusOSLinux 发行版 4 0 R 3 6 1 和 Windows Windows 10 R 3 5 2 My code library datasets fit2 lt lm Sepal Length Sepal W
通过变量访问Go函数[重复]

这个问题在这里已经有答案了我刚刚开始学习 Go 有些事情引起了我的注意功能如下 delete map Answer for maps append slice 0 for slices len slice cap slice again
constexpr 计算负位移位时未定义的行为？

考虑以下代码片段 int main constexpr int x 1 if x gt 0 constexpr int y 1 lt
如何在 AWS Route 53 中将流量从非 www 域名重定向到 www.example.com

我在 AWS Route 53 中拥有一个域名 www derbyware com 我有一个 Web 应用程序运行在 http node147934 env 7029269 phx enscaled us http node147934 e
如何运行独立的 Eclipse MAT？

我使用 jmap 生成了 hprof sudo jdk bin jmap F dump file app hprof 5003 现在我在 eclipse 中解析 hprof 时遇到 OOM Java Heap Space 错误我想我需要
GLEW 链接问题找不到 __imp_glGetIntegerv

注意是的我已经指定了 GLEW STATIC 因此在尝试设置glew以在新项目中使用之前我已经经历过这个牛仔竞技表演但现在我在项目中使用glew 2 0 它产生了链接错误我刚刚在 Linux 实例中生成了源代码并像这样使用它们
Celery + Redis - .get() 平稳运行约 70 小时后无限期挂起

几天内一切都运行良好但后来我无限期地挂在 get 上发生无限期挂起所需的时间各不相同但都在运行 24 到 72 小时之间我怀疑这与Redis代理有关的输出CLIENT LIST in redis cli显示大量连接且空闲数非常高
fullcalendar js 中未显示的事件

请任何人帮我找出代码中出了什么问题我使用 fullcalendar js 来处理日历事件我想在日历中显示事件下面是我的代码 document ready function window resize function calendar
使用采样数据时CRC32函数如何工作？

我想问你关于Python中以下短函数的解释 from zlib import crc32 def test set check identifier test ratio return crc32 np int64 identifier 0

使用采样数据时CRC32函数如何工作？

使用采样数据时CRC32函数如何工作？ 的相关文章

随机推荐

热门标签

使用采样数据时CRC32函数如何工作？的相关文章