根据两个预先计算的直方图报告两个样本的 K-S 统计量

2024-05-13

Problem:

在这里，我绘制了存储在文本文件中的 2 个数据集（在列表中）dataset）每个包含 218 亿个数据点。这使得数据太大而无法作为数组保存在内存中。我仍然能够将它们绘制为直方图，但我不确定如何通过2 样本KS测试 http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.ks_2samp.html。这是因为我无法弄清楚如何访问 plt 对象中的每个直方图。

Example:

这是一些生成虚拟数据的代码：

mu = [100, 120]
sigma = 30
dataset = ['gsl_test_1.txt', 'gsl_test_2.txt']
for idx, file in enumerate(dataset):
    dist = np.random.normal(mu[idx], sigma, 10000)
    with open(file, 'w') as g:
        for s in dist:
            g.write('{}\t{}\t{}\n'.format('stuff', 'stuff', str(s)))

这会生成我的两个直方图（使here https://stackoverflow.com/questions/37082402/how-to-build-or-precompute-a-histogram-from-a-file-too-large-for-memory):

chunksize = 1000
dataset = ['gsl_test_1.txt', 'gsl_test_2.txt']
for fh in dataset:
    # find the min, max, line qty, for bins
    low = np.inf
    high = -np.inf

    loop = 0
    for chunk in pd.read_table(fh, header=None, chunksize=chunksize, delimiter='\t'):
        low = np.minimum(chunk.iloc[:, 2].min(), low)
        high = np.maximum(chunk.iloc[:, 2].max(), high)
        loop += 1
    lines = loop*chunksize

    nbins = math.ceil(math.sqrt(lines))   

    bin_edges = np.linspace(low, high, nbins + 1)
    total = np.zeros(nbins, np.int64)  # np.ndarray filled with np.uint32 zeros, CHANGED TO int64

    for chunk in pd.read_table(fh, header=None, chunksize=chunksize, delimiter='\t'):

        # compute bin counts over the 3rd column
        subtotal, e = np.histogram(chunk.iloc[:, 2], bins=bin_edges)  # np.ndarray filled with np.int64

        # accumulate bin counts over chunks
        total += subtotal


    plt.hist(bin_edges[:-1], bins=bin_edges, weights=total)
    plt.savefig('gsl_test_hist.svg')

问题：

Most KS 统计的示例 https://stackoverflow.com/questions/10884668/two-sample-kolmogorov-smirnov-test-in-python-scipy使用两个原始数据/观察/点/等数组，但我没有足够的内存来使用这种方法。根据上面的示例，我如何访问这些预先计算的垃圾箱（从'gsl_test_1.txt' and 'gsl_test_2.txt'计算两个分布之间的 KS 统计量？

奖励业力：在图表上记录 KS 统计量和 p 值！

我稍微清理了一下你的代码。写信给StringIO所以它比写入文件更精简。设置默认氛围 w/seaborn代替matplotlib使其看起来更现代。这bins如果您希望统计测试保持一致，则两个样本的阈值应该相同。我认为如果你迭代并以这种方式制作垃圾箱，整个事情可能会比需要的时间更长。Counter可能很有用，因为您只需循环一次...而且您将能够制作相同的垃圾箱大小。将浮点数转换为整数，因为您将它们合并在一起。from collections import Counter then C = Counter() and C[value] += 1。你会有一个dict最后你可以从那里制作垃圾箱list(C.keys())。这会很好，因为你的数据是如此粗糙。另外，你应该看看是否有办法做chunksize with numpy代替pandas b/c numpy索引速度更快。尝试一个%timeit for DF.iloc[i,j] and ARRAY[i,j]你就会明白我的意思了。我将其中大部分内容编写为一个函数，以尝试使其更加模块化。

import numpy as np
import pandas as pd
import math
import matplotlib.pyplot as plt
from io import StringIO
from scipy.stats import ks_2samp
import seaborn as sns; sns.set()

%matplotlib inline

#Added seaborn b/c it looks mo betta

mu = [100, 120]
sigma = 30

def write_random(file,mu,sigma=30):
    dist = np.random.normal(mu, sigma, 10000)
    for i,s in enumerate(dist):
        file.write('{}\t{}\t{}\n'.format("label_A-%d" % i, "label_B-%d" % i, str(s)))
    return(file)

#Writing to StringIO instead of an actual file
gs1_test_1 = write_random(StringIO(),mu=100)
gs1_test_2 = write_random(StringIO(),mu=120)

chunksize = 1000

def make_hist(fh,ax):
    # find the min, max, line qty, for bins
    low = np.inf
    high = -np.inf

    loop = 0

    fh.seek(0)
    for chunk in pd.read_table(fh, header=None, chunksize=chunksize, sep='\t'):
        low = np.minimum(chunk.iloc[:, 2].min(), low) #btw, iloc is way slower than numpy array indexing
        high = np.maximum(chunk.iloc[:, 2].max(), high) #you might wanna import and do the chunks with numpy
        loop += 1
    lines = loop*chunksize

    nbins = math.ceil(math.sqrt(lines))   

    bin_edges = np.linspace(low, high, nbins + 1)
    total = np.zeros(nbins, np.int64)  # np.ndarray filled with np.uint32 zeros, CHANGED TO int64

    fh.seek(0)
    for chunk in pd.read_table(fh, header=None, chunksize=chunksize, delimiter='\t'):

        # compute bin counts over the 3rd column
        subtotal, e = np.histogram(chunk.iloc[:, 2], bins=bin_edges)  # np.ndarray filled with np.int64

        # accumulate bin counts over chunks
        total += subtotal

    plt.hist(bin_edges[:-1], bins=bin_edges, weights=total,axes=ax,alpha=0.5)

    return(ax,bin_edges,total)

#Make the plot canvas to write on to give it to the function
fig,ax = plt.subplots()

test_1_data = make_hist(gs1_test_1,ax)
test_2_data = make_hist(gs1_test_2,ax)

#test_1_data[1] == test_2_data[1] The bins should be the same if you're going try and compare them...
ax.set_title("ks: %f, p_in_the_v: %f" % ks_2samp(test_1_data[2], test_2_data[2]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据两个预先计算的直方图报告两个样本的 K-S 统计量的相关文章

将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
协程从未被等待

我正在使用一个简单的上下文管理器其中包含一个异步循环 class Runner def init self self loop asyncio get event loop def enter self return self def e
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

ORDER BY id 或 date_created 显示最新结果？

我有一个表实际上有几个我想首先从中获取最新条目的结果这是我的ORDER BY条款选项 date created INT 从不改变值 id 当然是INT AUTO INCRMENT 两列应同等地代表记录插入的顺序我自然会使用date
为单个方法引用大 DLL

我想在 C 中使用大型类库 dll 中的单个方法是否有性能或其他方面的缺点我应该使用反射工具读取方法代码并将其复制粘贴到我的项目中吗更新硬盘空间不是问题我的应用程序是网络应用程序是否有性能或其他方面的缺点唯一真正重要的是可
如何在WPF中使用一次性视图模型？

如果视图模型引用非托管资源或具有事件处理程序例如调度程序计时器上的处理已过去如何确保视图模型得到正确处理在第一种情况下终结器是一种选择虽然并不理想但在后者中它永远不会被调用我们如何判断何时不再有视图附加到视图模型我通过执行
如何在控制器内部使用 auto_link

在我的控制器中我需要构建一个 JSON 对象如何在控制器内使用 auto link 现在它错误 NoMethodError undefined method mail to for
Apollo 更新查询未调用？

我正在 GitHunt React 和 GitHunt API 中研究 Apollo pub sub 当我运行这些应用程序并输入新评论时评论将通过调用提交来保存然后 updateQueries 代码块在此处运行 const Commen
具有自签名证书的 Alamofire / ServerTrustPolicy

我想使用 Alamofire 通过带有自签名证书的 https 连接与我的服务器进行通信我的环境在本地主机上运行我尝试连接但响应始终如下所示 Success false Response String nil 我用下面的代码完成了它
如何在 Linq where 子句中指定动态字段名称？

如果您创建一个包含 Linq 条件的 Filter 对象该对象通常位于如下的 where 子句中 var myFilterObject FilterFactory GetBlank myFilterObject AddCondition
如何使用 QuerySelector 获得第二个匹配项？

以下语句给出了该类的第一个元素titanic element document querySelector titanic 我如何检索具有相同类的第二个元素 Use document querySelectorAll https devel
我想使用对话框显示两个数字选择器

我试图仅使用 java 在对话框上显示两个数字选择器代码正在工作但我无法将其排列为相等的宽度这是我的代码 RelativeLayout relative new RelativeLayout mContext final Number
Fiddler 会话对象文档

在哪里可以找到有关 Fiddler Session 对象的属性和方法的文档我正在 Fiddler 中创建一些自定义规则 js 以进行故障排除安装脚本编辑器并单击视图 gt 类资源管理器 http www telerik com dow
如何在模型更改时停止ListView“跳跃”

我需要做什么我需要创建一个聊天窗口用一个ListView在 QML 中存储聊天消息我设置listView positionViewAtEnd 以便跟踪最后的消息我禁用positionViewAtEnd当我向上滚动时我可以阅读过去的消
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
如何在编译时生成嵌套循环

我有一个整数N我在编译时就知道了我也有一个标准数组保存描述形状的整数N维数组我想在编译时使用元编程技术生成嵌套循环如下所述 constexpr int N 4 constexpr std array
如何在 Ruby 中列出局部变量？

def method a 3 b 4 some method that gives a b end 局部变量 http ruby doc org core Kernel html method i local variables 它输出符号
在 TinyMCE 中插入换行符而不是

我已按如下方式初始化 TinyMCE 我想在用户按 Enter 键而不是段落时强制换行我正在尝试关注但没有成功我正在使用 TinyMCE 版本 3 3 8 tinyMCE init mode exact theme advanced
Travis CI 与 Clang 3.4 和 C++11

Travis CI 是否可以与支持 C 11 的 Clang 一起使用我想要 Clang 而不是 GCC 我已经在 Travis CI 中使用了 GCC 4 8 看来预安装的版本不支持 C 11 我安装任何新版本的所有尝试都结束了因为这个
Express.js - 监听关闭

我有一个使用 Express 的 Node js 应用程序在该应用程序中我有一个如下所示的块 const app require app const port process env PORT 8080 const server app
T-SQL 按最旧日期和唯一类别选择行

我正在使用 Microsoft SQL 我有一个表其中包含按两个不同类别存储的信息和一个日期例如 ID Cat1 Cat2 Date Time Data 1 1 A 11 00 456 2 1 B 11 01 789 3 1 A 11
如何在 Visual Studio Code 中缩进/格式化所选代码？

我想缩进 Visual Studio Code 中的特定代码部分 I read 如何在 Visual Studio Code 中设置代码格式 https stackoverflow com questions 29973357 它提供了缩进
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http

根据两个预先计算的直方图报告两个样本的 K-S 统计量

根据两个预先计算的直方图报告两个样本的 K-S 统计量 的相关文章

随机推荐

热门标签

根据两个预先计算的直方图报告两个样本的 K-S 统计量的相关文章