Python 列联表

2024-04-28

作为我正在编写的项目的一部分，我正在生成很多很多列联表。

工作流程是：

获取具有连续（浮点）行的大型数据数组，并通过分箱将其转换为离散整数值（例如，结果行的值为 0-9）
将两行切片为向量 X 和 Y 并生成列联表 https://en.wikipedia.org/wiki/Contingency_table来自他们，这样我就有了二维频率分布
例如，我有一个 10 x 10 数组，计算出现的 (xi, yi) 数量
使用列联表进行一些信息论数学计算

最初，我将其写为：

def make_table(x, y, num_bins):
    ctable = np.zeros((num_bins, num_bins), dtype=np.dtype(int))
    for xn, yn in zip(x, y):
        ctable[xn, yn] += 1
    return ctable

这工作正常，但速度太慢，以至于占用了整个项目 90% 的运行时间。

我能想到的最快的纯Python优化是这样的：

def make_table(x, y, num_bins):
    ctable = np.zeros(num_bins ** 2, dtype=np.dtype(int))
    reindex = np.dot(np.stack((x, y)).transpose(), 
                     np.array([num_bins, 1]))
    idx, count = np.unique(reindex, return_counts=True)
    for i, c in zip(idx, count):
        ctable[i] = c
    return ctable.reshape((num_bins, num_bins))

这（不知何故）快了很多，但对于看起来不应该成为瓶颈的东西来说，它仍然相当昂贵。有没有我没有看到的有效方法可以做到这一点，或者我应该放弃并在 cython 中执行此操作？

另外，这里还有一个基准测试函数。

def timetable(func):
    size = 5000
    bins = 10
    repeat = 1000
    start = time.time()
    for i in range(repeat):
        x = np.random.randint(0, bins, size=size)
        y = np.random.randint(0, bins, size=size)
        func(x, y, bins)
    end = time.time()
    print("Func {na}: {ti} Ms".format(na=func.__name__, ti=(end - start)))

表示元素的巧妙技巧np.stack((x, y))因为整数可以变得更快：

In [92]: %timeit np.dot(np.stack((x, y)).transpose(), np.array([bins, 1]))
109 µs ± 6.55 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

In [94]: %timeit bins*x + y
12.1 µs ± 260 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

此外，第二个解决方案的最后部分可以稍微简化，只需考虑

np.unique(bins * x + y, return_counts=True)[1].reshape((bins, bins))

更重要的是，由于我们正在处理等距的非负整数，np.bincount https://docs.scipy.org/doc/numpy/reference/generated/numpy.bincount.html将会超越np.unique;这样，上面的内容可以归结为

np.bincount(bins * x + y).reshape((bins, bins))

总而言之，这比您当前正在做的事情提供了相当多的性能：

In [78]: %timeit make_table(x, y, bins)  # Your first solution
3.86 ms ± 159 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [79]: %timeit make_table2(x, y, bins)  # Your second solution
443 µs ± 23.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

In [101]: %timeit np.unique(bins * x + y, return_counts=True)[1].reshape((bins, bins))
307 µs ± 25 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

In [118]: %timeit np.bincount(bins * x + y).reshape((10, 10))
30.3 µs ± 3.44 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

您可能还想知道np.histogramdd https://docs.scipy.org/doc/numpy/reference/generated/numpy.histogramdd.html#numpy.histogramdd它同时处理舍入和合并，尽管它可能会比舍入和使用慢np.bincount.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

informationtheory

Python 列联表的相关文章

在 Python 中比较浮点数是否几乎相等的最佳方法是什么？

众所周知由于舍入和精度问题比较浮点数是否相等有点繁琐例如比较浮点数 2012 年版 https randomascii wordpress com 2012 02 25 comparing floating point number
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
如何使用格式保存 Tkinter 文本小部件的内容

我在 python 中使用 Tkinter 在文本窗口中显示输出我发现使用 get 功能我可以从此窗口检索文本内容但我有用不同背景颜色标记的文本部分是否可以将内容与这些颜色一起复制到文件例如 html 或 doc 中没有对你想要的
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
在 Python 中倾斜数组

我有一个 2D 数组我将使用它保存为灰度图像scipy misc toimage 在此之前我想将图像倾斜给定角度像这样进行插值scipy ndimage interpolation rotate 上图只是为了说明倾斜过程我知道我必须
使用 python boto3 管理 Route53 中具有多个 IP 的 A 记录

我的route53中有一条A记录后面有多个IP 例子 A record dummy xyz com 点IPs 1 1 1 1 2 2 2 2 和 3 3 3 3路由策略 Simple 我使用下面的代码来更新单个 IP 的记录 Change
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
在 Python 中通过网络发送对象的最佳方式是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我需要通过网络发送对象我将使用 Twisted 并且我刚刚开始查看它的文档据我所知 python实现套接字的唯一方式是通过文本那么我如何使
__author__ 的起源是什么？

使用私有元数据变量的约定在哪里 author 一个模块内部从何而来 This http mail python org pipermail python dev 2001 March 013328 htmlPython 邮件列表线程似乎暗示
如何在 FastAPI Swagger API 中按方法类型对方法进行排序？

如何在 FastAPI Swagger 自动文档中设置 API 方法的排序顺序我希望所有方法按类型分组 GET POST PUT DELETE 这个答案 https stackoverflow com questions 24951268
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
Python-使用元组作为列表索引[重复]

这个问题在这里已经有答案了我有一个元组列表 tuples list 1 0 2 3 3 2 2 0 我想访问二维数组的元素a例如使用其中一些元组 for i in range 3 print a tuples list i 应该输出的值
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
使用 Celery 通过 Gevent 进行实时、同步的外部 API 查询

我正在开发一个 Web 应用程序该应用程序将接收用户的请求并且必须调用许多外部 API 来编写对该请求的答案这可以直接从主 Web 线程使用 gevent 之类的东西来扇出请求来完成或者我在想我可以将传入的请求放入队列中并使用
启动客户端时，代码要求提供电话/机器人令牌

使用 Telethon 库运行我的第一个代码时它要求提供机器人令牌这是实际的代码 from telethon import TelegramClient events sync api id 1234567 api hash xxxxx
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
如何通过解析导入来组合并获取单个 Python 文件

我正在尝试获取单个 Python 文件作为输出我有一个 Python 脚本其中有多个此类导入 from that import sub 导入来自所有本地模块而不是来自系统或 Python 库有什么方法可以解决这些问题并获得一个完整的
如何使用多阶段构建减小 python (docker) 图像大小？

我正在寻找一种使用 python 和 Dockerfile 创建多阶段构建的方法例如使用以下图像第一张图片安装所有编译时要求并安装所有需要的 python 模块第二张图片将所有已编译构建的包从第一个映像复制到第二个映像而不

随机推荐

为什么我的 ODBC 连接在 Visual Studio 中运行 SSIS 加载时失败，但在使用执行包实用工具运行相同包时却失败

我正在 SSIS 2012 中处理数据集市加载包当尝试在 Visual Studio 中执行该包时我收到此错误 AcquireConnection方法调用连接管理器数据 Warehouse ssusr 失败错误代码为 0xC00140
Unicode 无法正确翻译从右到左的语言（希伯来语和阿拉伯语）

下面由 Mikhail Berlyant 提供的 bigquery 代码再次感谢您适用于从左到右的语言例如俄语但是只要要翻译的文本中有双引号它就会在从右到左的语言例如阿拉伯语和希伯来语上失败预期结果应显示所有要翻译的输入文
使用 CGFloat 和 float 有什么区别？

我倾向于在所有地方使用 CGFloat 但我想知道我是否会因此而受到毫无意义的性能打击 CGFloat 似乎是比 float 更重的东西对吧我应该在什么时候使用 CGFloat 什么才是真正的区别正如 weichsel 所说 C
更改通过表单上传的 tmp 文件的文件名

就像标题说我想更改用户通过表单上传的文件的文件名这是代码 HTML
这是一个合理的用户注册流程吗？

我正在制定内部申请的注册流程我的初步设计如下我的主要问题是是否真的有必要包括registration confirmation code 它是保护应用程序免受现实威胁还是只是增加不必要的复杂性对此我不确定用户输入电子邮件地址由于这
如何获得日期为 yyyy-mm-dd 的年份差异？

我想得到以 yyyy mm dd 格式给出的两个日期之间的差异差异应该是年份 var ds 2002 09 23 var today date new Date alert today date Date prototype yyyymm
如何使用 Ant 配置惰性或增量构建？

Java编译器提供增量构建所以javac蚂蚁任务也是如此但大多数其他进程则不然考虑到构建过程它们将一组文件源转换为另一组文件目标我在这里可以区分两种情况变压器cannot获取源文件的子集仅获取整个集合这里我们只能做懒惰
Angular：将数据从工厂 ajax 调用传递回我的控制器

我一直在使用 Angular 并且已经从使用本地数据似乎工作正常转向尝试通过工厂中的 ajax 调用来填充我的视图这是代码 div h2 Get data using a Factory h2 div div div
使用 Asynchronous ReadableStream 和 Response 从 Service Worker 的 fetch 事件返回 HTML

这个问题类似于我的另一个问题 https stackoverflow com questions 62457644 use readablestream with response to return html from fetch eve
JavaFX 中的隐形舞台/场景

我正在寻找一种隐藏 JavaFX 舞台或场景的方法现在我知道了 hide 但这行不通我需要一些仍然保留窗口的东西但只是使其完全透明一个很好的比喻是display none and visibility hidden在CSS中第一个
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google
通过命令行创建私有 github 存储库

我希望能够通过命令行创建一个私人 github 存储库我认为使用其余 API 应该可以做到这一点但是我无法从文档中弄清楚如何做到这一点这可能吗 The GitHub CLI https github com cli cli tool
安全浮点除法

我的代码中有一些地方我想确保 2 个任意浮点数 32 位单精度的除法不会溢出目标编译器不保证足够明确对 INF INF 的良好处理并且不完全保证 IEEE 754 的异常值可能未定义并且目标可能会改变另外我无法对这几个
使用 BeautifulSoup 在 python 中抓取多个页面

我已经设法编写代码来从第一页中抓取数据现在我不得不在这段代码中编写一个循环来抓取接下来的 n 页下面是代码如果有人可以指导帮助我编写从剩余页面中抓取数据的代码我将不胜感激 Thanks from bs4 import Beauti
为什么playsound函数无法在python中播放我的mp3文件

所以基本上我试图创建一个音乐播放程序可以在您要求时播放音乐我只是想让歌曲播放部分实际工作所以我编写了一个超级简单的代码来测试它 import playsound playsound sample mp3 This was done i
在 C# 中查找并写入大于 2GB 的文件

在 C 中 FileStream的方法 Read Write Seek 采用integer在参数中在一个上一篇文章 https stackoverflow com questions 5654298 filestream read wri
Access 2003中可以制作存储过程或函数吗？

在Access 2003中我们可以创建存储过程或函数吗对于 Access 2003 答案是否定的 Access 2010 确实有表触发器和存储过程这些是真正的引擎级例程作为行更新的结果运行因此导致行修改的表单或 VBA 记录集代
在 Silverlight 中克隆业务对象的最佳方法是什么？

创建 DTO 克隆的最佳方法是什么 Silverlight 中没有 ICloneable 接口或 BinaryFormatter 类反思是唯一的方法吗这是我们为克隆编写的代码这适用于 Silverlight 2 和 3 Public
CloudWatch：计算日志文件中特定字符串的出现次数

我有包含特定弹簧模式的日志文件这些字符串模式在每个日志事件中频繁出现例如
Python 列联表

作为我正在编写的项目的一部分我正在生成很多很多列联表工作流程是获取具有连续浮点行的大型数据数组并通过分箱将其转换为离散整数值例如结果行的值为 0 9 将两行切片为向量 X 和 Y 并生成列联表 https en wikipe

Python 列联表

Python 列联表 的相关文章

随机推荐

热门标签

Python 列联表的相关文章