Python:Matplotlib - 多个数据集的概率图

2023-12-07

我有几个数据集(分布)如下:

set1 = [1,2,3,4,5]
set2 = [3,4,5,6,7]
set3 = [1,3,4,5,8]

如何使用上面的数据集绘制散点图,其中 y 轴是概率(即集合中分布的百分位数: 0%-100% ),x 轴是数据集名称? 在 JMP 中,它称为“分位数图”。

Something like image attached: enter image description here

请各位赐教。谢谢。

[EDIT]

我的数据是 csv 格式的:

enter image description here

使用 JMP 分析工具,我可以绘制概率分布图(QQ 图/正态分位数图,如下图所示):

enter image description here

我相信 Joe Kington 几乎已经解决了我的问题,但是我想知道如何将原始 csv 数据处理成概率或百分位数数组。

我这样做是为了在 Python 中自动进行一些统计分析,而不是依赖 JMP 进行绘图。


我不太清楚你想要什么,所以我猜,在这里......

您希望“概率/百分位数”值成为累积直方图?

那么对于一个单一的情节,你会有这样的东西吗? (如上面所示,用标记绘制它,而不是更传统的步骤图......)

import scipy.stats
import numpy as np
import matplotlib.pyplot as plt

# 100 values from a normal distribution with a std of 3 and a mean of 0.5
data = 3.0 * np.random.randn(100) + 0.5

counts, start, dx, _ = scipy.stats.cumfreq(data, numbins=20)
x = np.arange(counts.size) * dx + start

plt.plot(x, counts, 'ro')
plt.xlabel('Value')
plt.ylabel('Cumulative Frequency')

plt.show()

enter image description here

如果这大致就是您想要的单个图,则有多种方法可以在一个图形上绘制多个图。最简单的方法就是使用子图。

在这里,我们将生成一些数据集并将它们绘制在具有不同符号的不同子图上......

import itertools
import scipy.stats
import numpy as np
import matplotlib.pyplot as plt

# Generate some data... (Using a list to hold it so that the datasets don't 
# have to be the same length...)
numdatasets = 4
stds = np.random.randint(1, 10, size=numdatasets)
means = np.random.randint(-5, 5, size=numdatasets)
values = [std * np.random.randn(100) + mean for std, mean in zip(stds, means)]

# Set up several subplots
fig, axes = plt.subplots(nrows=1, ncols=numdatasets, figsize=(12,6))

# Set up some colors and markers to cycle through...
colors = itertools.cycle(['b', 'g', 'r', 'c', 'm', 'y', 'k'])
markers = itertools.cycle(['o', '^', 's', r'$\Phi$', 'h'])

# Now let's actually plot our data...
for ax, data, color, marker in zip(axes, values, colors, markers):
    counts, start, dx, _ = scipy.stats.cumfreq(data, numbins=20)
    x = np.arange(counts.size) * dx + start
    ax.plot(x, counts, color=color, marker=marker, 
            markersize=10, linestyle='none')

# Next we'll set the various labels...
axes[0].set_ylabel('Cumulative Frequency')
labels = ['This', 'That', 'The Other', 'And Another']
for ax, label in zip(axes, labels):
    ax.set_xlabel(label)

plt.show()

enter image description here

如果我们希望它看起来像一个连续的图,我们可以将子图挤压在一起并关闭一些边界。只需在调用之前添加以下内容即可plt.show()

# Because we want this to look like a continuous plot, we need to hide the
# boundaries (a.k.a. "spines") and yticks on most of the subplots
for ax in axes[1:]:
    ax.spines['left'].set_color('none')
    ax.spines['right'].set_color('none')
    ax.yaxis.set_ticks([])
axes[0].spines['right'].set_color('none')

# To reduce clutter, let's leave off the first and last x-ticks.
for ax in axes:
    xticks = ax.get_xticks()
    ax.set_xticks(xticks[1:-1])

# Now, we'll "scrunch" all of the subplots together, so that they look like one
fig.subplots_adjust(wspace=0)

enter image description here

无论如何,希望这能有所帮助!

编辑:如果您想要百分位值,而不是累积直方图(我真的不应该使用 100 作为样本大小!),这很容易做到。

只需做这样的事情(使用numpy.percentile而不是手动标准化事物):

# Replacing the for loop from before...
plot_percentiles = range(0, 110, 10)
for ax, data, color, marker in zip(axes, values, colors, markers):
    x = np.percentile(data, plot_percentiles)
    ax.plot(x, plot_percentiles, color=color, marker=marker, 
            markersize=10, linestyle='none')

enter image description here

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python:Matplotlib - 多个数据集的概率图 的相关文章

随机推荐