将每个列表值映射到其相应的百分位

2024-02-27

我想创建一个函数，它接受（排序的）列表作为其参数，并输出一个包含每个元素相应百分位数的列表。

例如，fn([1,2,3,4,17])回报[0.0, 0.25, 0.50, 0.75, 1.00].

任何人都可以请：

帮我改正下面的代码吗？或者
是否提供了比我的代码更好的替代方案，用于将列表中的值映射到相应的百分位数？

我当前的代码：

def median(mylist):
    length = len(mylist)
    if not length % 2:
        return (mylist[length / 2] + mylist[length / 2 - 1]) / 2.0
    return mylist[length / 2]

###############################################################################
# PERCENTILE FUNCTION
###############################################################################

def percentile(x):
    """
    Find the correspoding percentile of each value relative to a list of values.
    where x is the list of values
    Input list should already be sorted!
    """

    # sort the input list
    # list_sorted = x.sort()

    # count the number of elements in the list
    list_elementCount = len(x)

    #obtain set of values from list

    listFromSetFromList = list(set(x))

    # count the number of unique elements in the list
    list_uniqueElementCount = len(set(x))

    # define extreme quantiles
    percentileZero    = min(x)
    percentileHundred = max(x)

    # define median quantile
    mdn = median(x) 

    # create empty list to hold percentiles
    x_percentile = [0.00] * list_elementCount 

    # initialize unique count
    uCount = 0

    for i in range(list_elementCount):
        if x[i] == percentileZero:
            x_percentile[i] = 0.00
        elif x[i] == percentileHundred:
            x_percentile[i] = 1.00
        elif x[i] == mdn:
            x_percentile[i] = 0.50 
        else:
            subList_elementCount = 0
            for j in range(i):
                if x[j] < x[i]:
                    subList_elementCount = subList_elementCount + 1 
            x_percentile[i] = float(subList_elementCount / list_elementCount)
            #x_percentile[i] = float(len(x[x > listFromSetFromList[uCount]]) / list_elementCount)
            if i == 0:
                continue
            else:
                if x[i] == x[i-1]:
                    continue
                else:
                    uCount = uCount + 1
    return x_percentile

目前，如果我提交percentile([1,2,3,4,17])，列表[0.0, 0.0, 0.5, 0.0, 1.0]被返回。

我认为您的示例输入/输出与计算百分位数的典型方法不对应。如果将百分位数计算为“严格小于该值的数据点的比例”，则最高值应为 0.8（因为 5 个值中有 4 个小于最大值）。如果将其计算为“小于或等于该值的数据点的百分比”，则底部值应为 0.2（因为 5 个值中的 1 个等于最小的值）。因此百分位数将是[0, 0.2, 0.4, 0.6, 0.8] or [0.2, 0.4, 0.6, 0.8, 1]。您的定义似乎是“数据点的数量严格小于该值，被视为不等于该值的数据点数量的比例”，但根据我的经验，这不是一个常见的定义（例如参见维基百科 https://en.wikipedia.org/wiki/Percentile).

根据典型的百分位数定义，数据点的百分位数等于其排名除以数据点的数量。（例如参见这个问题 https://stats.stackexchange.com/questions/11924/computing-percentile-rank-in-rStats SE 询问如何在 R 中做同样的事情。）如何计算百分位数的差异与如何计算排名的差异（例如，如何对绑定值进行排名）。这scipy.stats.percentileofscore函数提供了四种计算百分位数的方法：

>>> x = [1, 1, 2, 2, 17]
>>> [stats.percentileofscore(x, a, 'rank') for a in x]
[30.0, 30.0, 70.0, 70.0, 100.0]
>>> [stats.percentileofscore(x, a, 'weak') for a in x]
[40.0, 40.0, 80.0, 80.0, 100.0]
>>> [stats.percentileofscore(x, a, 'strict') for a in x]
[0.0, 0.0, 40.0, 40.0, 80.0]
>>> [stats.percentileofscore(x, a, 'mean') for a in x]
[20.0, 20.0, 60.0, 60.0, 90.0]

（我使用包含关系的数据集来说明在这种情况下会发生什么。）

“排名”方法为并列组分配的排名等于其将覆盖的排名的平均值（即，获得第二名的三路并列排名为 3，因为它“占据”了排名 2、3 和 4）。 “弱”方法根据小于或等于给定点的数据点的比例分配百分位数； “strict”是相同的，但计算严格小于给定点的点的比例。 “平均”法是后两者的平均值。

正如 Kevin H. Lin 指出的那样，percentileofscore在循环中效率很低，因为它必须在每次传递时重新计算排名。然而，这些百分位数计算可以使用以下提供的不同排名方法轻松复制scipy.stats.rankdata http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mstats.rankdata.html，让您一次计算所有百分位数：

>>> from scipy import stats
>>> stats.rankdata(x, "average")/len(x)
array([ 0.3,  0.3,  0.7,  0.7,  1. ])
>>> stats.rankdata(x, 'max')/len(x)
array([ 0.4,  0.4,  0.8,  0.8,  1. ])
>>> (stats.rankdata(x, 'min')-1)/len(x)
array([ 0. ,  0. ,  0.4,  0.4,  0.8])

在最后一种情况下，排名向下调整 1，使它们从 0 而不是 1 开始。（我省略了“平均值”，但可以通过对后两种方法的结果求平均来轻松获得它。）

我做了一些计时。对于像您的示例中这样的小数据，使用rankdata比 Kevin H. Lin 的解决方案慢一些（大概是由于 scipy 在底层将事物转换为 numpy 数组时产生的开销），但比调用更快percentileofscore就像爬行动物的回答一样循环：

In [11]: %timeit [stats.percentileofscore(x, i) for i in x]
1000 loops, best of 3: 414 µs per loop

In [12]: %timeit list_to_percentiles(x)
100000 loops, best of 3: 11.1 µs per loop

In [13]: %timeit stats.rankdata(x, "average")/len(x)
10000 loops, best of 3: 39.3 µs per loop

然而，对于大数据集，numpy 的性能优势就会发挥作用，并使用rankdata比凯文快10倍list_to_percentiles:

In [18]: x = np.random.randint(0, 10000, 1000)

In [19]: %timeit [stats.percentileofscore(x, i) for i in x]
1 loops, best of 3: 437 ms per loop

In [20]: %timeit list_to_percentiles(x)
100 loops, best of 3: 1.08 ms per loop

In [21]: %timeit stats.rankdata(x, "average")/len(x)
10000 loops, best of 3: 102 µs per loop

这种优势只会在越来越大的数据集上变得更加明显。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将每个列表值映射到其相应的百分位的相关文章

存储为 np.arrays 的不同数据集的分组堆积条形图

我正在研究一个平衡问题我想比较一些数据我想通过创建不同年份的堆叠条形图来做到这一点每年我想要两个不同数据集的堆叠条形图我正在尝试创建一种分组堆积条形图我设法创建了我想要比较的 2 个堆叠条形图但它们仍然位于两个不同的图中我
python列表理解和extend() [重复]

这个问题在这里已经有答案了深入学习 Python 2 7 1 但未能理解这一点几个小时 gt gt gt a 1 2 gt gt gt b 3 4 gt gt gt gt gt gt a extend b 0 gt gt gt a 1
使用 Python 连接从 FTP 检索文件

我构建了这个简单的工具来暴力破解并连接到 ftp 服务器 import socket import ftplib from ftplib import FTP port 21 ip 192 168 1 108 file1 passwords
如何将当前日期分配给 odoo v8 中的日期字段？

我想将当前日期分配给以下代码中的日期字段 start date calendar obj create cr uid name rec res act ion user id rec res asgnd to id start date l
为什么通过selenium切换到alert不稳定？

为什么通过selenium切换到alert不稳定例如 1 运行代码一切顺利一切都很顺利但如果这段代码在几分钟内运行那么可能会出现错误例如没有可以单击的元素等等 2 在一个站点上有一个警报窗口 alert driver swi
如何从 python 脚本更改 python 文件中的变量值

我目前有一个 python 文件其中包含一堆带有值的全局变量我想从一个单独的 python 脚本永久更改这些值我尝试过 setattr 等但似乎不起作用有没有办法做到这一点简短的回答是不不值得这么麻烦听起来您正在尝试创建一
Python lmfit：拟合 2D 模型

我正在尝试将二维高斯拟合到一些灰度图像数据该数据由一个二维数组给出 lmfit 库实现了一个易于使用的模型类它应该能够做到这一点不幸的是文档 http lmfit github io lmfit py model html http
在用户提交的正则表达式中查找捕获组

我有一个 python 应用程序需要处理用户提交的正则表达式出于性能考虑我想禁止捕获组和反向引用我的想法是使用另一个正则表达式来验证用户提交的正则表达式不包含任何命名或未命名的组捕获如下所示 def validate user r
将 pandas DataFrame 与 Series 进行比较

我看过this https stackoverflow com questions 26285661 working with comparing dataframes and series and generating new dataf
没有名为 objc 的模块

我正在尝试将 cocoa python 与 Xcode 一起使用但它总是会出现错误 Traceback most recent call last File main py line 10 in
有没有更快的方法将数字转换为名称？

以下代码定义了映射到数字的名称序列它的设计目的是获取一个号码并检索一个特定的名称该类通过确保名称存在于其缓存中来进行操作然后通过索引到其缓存中来返回名称问题在这如何在不存储缓存的情况下根据数字计算出名称该名称可以被认为是一个以
numpy.polyfit 没有关键字“cov”

我试图使用 polyfit 来找到一组数据的最佳拟合直线但我还需要知道参数的不确定性所以我也想要协方差矩阵在线文档建议我写 polyfit x y 2 cov True 但这给出了错误类型错误 polyfit 得到了意外的关键字参数
python中不规则点之间的坐标列表

想象一下我们为 x 和 y 随机选择两个介于 0 到 100 之间的点例如 95 7 35 6 现在使用简单的 pygame draw line 函数我们可以轻松地在这些点之间绘制一条没有任何间隙的线我的问题是我们如何找到两点之间
NumPy 中 exp(-x^2) 的快速傅立叶变换

I have to calculate numerically the 2nd derivative of a Gaussian function I ve read every question on this topic here bu
为什么这个记忆器适用于递归函数？

我不明白为什么下面的代码是这样的fib以线性而非指数时间运行 def memoize obj Memoization decorator from PythonDecoratorLibrary Ignores kwargs cache ob
嵌套 for 循环以列出具有不同“if”条件的理解

我正在尝试将此嵌套循环转换为列表理解但我不确定是否可能因为 tmp 列表中的项目可能有不同的值这是最好的方法吗谢谢 final for a in range 13 1 for b in range 0 4 for c in rang
Mac OS 上的 pybluez 安装错误

我尝试安装pybluez使用以下命令 pip install pybluez sudo easy install pybluez 但对于这两个命令我最终都会出错环境 Mac OSX 10 9 1 Python 2 7 点日志 cc fno
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr
python字符串包含双引号字符

我的输入字符串由字符组成包括双引号和单引号和 B SS JU PQ AD DDSFD ABD E J 但是当我从文本文件打开上述输入并打印它时第三行中的双引号被打印为 xe2 x80 x9d 我的目标是进行简单的字符计数 B 2
launchd执行python脚本，但导入失败

我使用 appscript 编写了一个 python 脚本来跟踪我当前活动的窗口我通过 launchd 运行它但是当我这样做时它无法导入 appscript 我已经在 launchd 的 plist 中设置了 PYTHONPATH 但

随机推荐

如何在 R 中显式调用函数参数的默认值？

如何告诉 R 使用函数参数的默认值而无需 i 省略函数调用中的参数以及 ii 不知道默认值是什么我知道我可以使用默认值mean in rnorm rnorm n 100 by omitting the argument or rnorm
如何将 FormsAuthentication cookie 添加到 HttpClient HttpRequestMessage

我试图通过调用 FormsAuthentication SetAuthCookie someUser false 来验证内部集成测试之后我确实需要调用 WebAPI 并且不会收到未经授权的异常因为我已经应用了授权属性我正在使用此代码来
Ruby Koans：为什么将符号列表转换为字符串

我指的是 Ruby Koans 中 about symbols rb 中的这个测试https github com edgecase ruby koans blob master src about symbols rb L26 https
如何从 Perl 与 ClearCase 交互？

我的项目需要使用 Excel 工作表中的 Perl 脚本从 ClearCase 数据中提取一些内容这些内容是通过给出两条特定的时间线或两条基线该基线内关联的所有活动列标题活动所有者 ID 列标题所有者特定活动中关联的所有元素
插座之间的管道

我有一个充当镜像的 C 服务器输入的内容会输出到不同的套接字现在它将套接字读入缓冲区并将其写入另一个套接字我想提高吞吐量 I ve 读东西 http www kegel com c10k html zerocopy about se
点之间的欧几里得距离

我在 numpy 中有一个点数组 points rand dim n points 我想计算某个点与所有其他点之间的所有 l2 范数欧几里得距离计算所有成对距离最好都是 numpy 而没有 for 一个人怎样才能做到呢如果您愿意使
PropertyPlaceholderConfigurer 从 XML 文件读取（Apache Commons 配置）

是否可以配置 Spring PropertyPlaceholderConfigurer 来读取 properties xml 通过 Apache Commons 配置我在帮助下找到了解决方案seanizer https stackover
如何使用nodejs禁用Chrome的会话恢复警告？

如何通过 NodeJS 在 Windows 中重新启动 Chromium Google Chrome 信息亭模式以便它在重新启动时正常启动浏览器就像普通人使用它一样当我每次重新启动 Chromium Google chrome 时使用
图像周围出现尴尬的线条

可能最容易用图像来解释我想要什么当我浮动图像时文本围绕它运行这很棒但是根据文本量和图像大小我经常会遇到这些尴尬的情况在这种情况下尴尬的文本在图像旁边的列中看起来会更好 I could根据有多少尴尬的文本为图像添加更多的底部边
何时选择在 SSIS 的 Lookup 组件中进行缓存

在SSIS查找中有3种类型的缓存完整部分和无缓存在我们的解决方案中它一直使用默认的完整是否有任何特定的场景可以使用部分缓存无缓存在我们的解决方案中锁定表总是很小例如我们一直在查看小表来获取类型或获取描述这可能是它在
按最新排序，但按另一个 ID 列放在一起

我正在尝试进行一些排序并保持在一起不是真正的分组工作在我的示例数据中我想将 DealerID 保留在一起按 IsPrimaryDealer DESC 排序但按最新条目显示经销商组好吧也许是分组结果集 2 是最接近的但 G
为ListView自定义CheckedTextView

据我所知 ListView嵌入了CheckedTextView来形成列表但是每个CheckedTextView只有一个TextView和一个CheckBox 我想要做的是将一些 TextView 添加到 CheckedTextView 中
使用 PostgreSQL 在 WITH(CTE) 中创建

我正在尝试使用 PostgreSQL 中的函数在WITH 中创建临时表 Example with mm as select from test create table xyz as select from mm Note 在创建附近出现错
在 Django 模板中执行 Javascript 和 css

我正在 Django 应用程序中通过 Weasyprint 将 HTML 导出为 PDF 我注意到如果我将模板 html 发送到前端并将该 html 返回到后端以将其导出为 pdf 它会完美打印但如果我直接将模板 html 发送到 We
如何在 C++ 中的 while 循环中存储先前的迭代？

我看到有一个类似标题的答案但内容对我来说太密集了因为我不太了解 C 我对编程非常陌生我不知道如何在 while 循环中存储先前的迭代我正在尝试使用 while 循环将用户文本写入文件并以两个结束输入 n人物这就是我的问题所在因
当我添加到数组时，svelte 列表不会更新

我刚刚开始使用 svelte 所以这可能是一个菜鸟问题我有一个列表我可以从数组中删除项目并且列表 each 更新没有问题但是如果我将一个项目添加到数组中列表不会重新绘制直到我删除另一个项目 https svelte dev r
如何使用客户端证书在 Web API 中进行身份验证和授权

我尝试使用客户端证书对使用 Web API 的设备进行身份验证和授权并开发了一个简单的概念证明来解决潜在解决方案的问题我遇到了 Web 应用程序未收到客户端证书的问题许多人报告了这个问题包括在这个问答中 https stackove
读取 iPhone 运营商的信号强度

这可能吗如果没有的话我真的很惊讶这还没有通过 API 开放 Apple 不允许使用低级网络 wifi 蜂窝 API 有趣的是在之前的一段时间内应用程序商店中有些应用程序使用了私有 api 例如一些 WIFI 扫描仪至少据我所知现
Python 中的线程

关于如何在 Python 中使用线程的一般教程或好的资源何时使用线程它们如何有效以及线程的一些一般背景特定于 Python 当您希望同时运行两个事物或者希望某些事物在后台运行而不减慢主进程时应该使用线程我的建议是仅在必要时才使用
将每个列表值映射到其相应的百分位

我想创建一个函数它接受排序的列表作为其参数并输出一个包含每个元素相应百分位数的列表例如 fn 1 2 3 4 17 回报 0 0 0 25 0 50 0 75 1 00 任何人都可以请帮我改正下面的代码吗或者是否提供了比我的

将每个列表值映射到其相应的百分位

将每个列表值映射到其相应的百分位 的相关文章

随机推荐

热门标签

将每个列表值映射到其相应的百分位的相关文章