使用Python匹配Stata加权xtile命令的最终方法？

2023-12-07

对于一个项目，我需要复制 Stata 输出文件 (.dta) 中当前存在的一些结果，这些结果是根据较旧的 Stata 脚本计算得出的。新版本的项目需要用Python编写。

我遇到困难的具体部分是根据 Stata 的加权版本匹配分位数断点计算xtile command。请注意，数据点之间的联系与权重无关，并且我使用的权重来自连续数量，因此联系极不可能（并且我的测试数据集中没有联系）。因此，由于关系而错误分类并非如此。

我已阅读维基百科关于加权百分位数的文章并且这个交叉验证的帖子描述了一种应该复制 R 的 7 类分位数的替代算法。

我已经实现了两种加权算法（代码在底部），但我仍然没有很好地匹配 Stata 输出中计算的分位数。

有谁知道Stata例程使用的具体算法吗？文档没有清楚地描述这一点。它说的是在 CDF 的平坦部分取平均值来反转它，但这几乎无法描述实际的算法，并且对于它是否正在执行任何其他插值也含糊不清。

注意numpy.percentile and scipy.stats.mstats.mquantiles不接受权重，也不能执行加权分位数，仅执行常规等权分位数。我的问题的关键在于需要使用权重。

注意：我已经对下面的两种方法进行了很多调试，但是如果您看到一个错误，请随时在评论中提出错误。我已经在较小的数据集上测试了这两种方法，结果很好，并且在我可以保证 R 使用什么方法的情况下也与 R 的输出相匹配。该代码还不是那么优雅，并且在两种类型之间复制了太多内容，但是当我相信输出是我需要的时，所有这些都将在稍后修复。

问题是我不知道Stata的方法xtile使用，我想减少下面的代码和 Stata 之间的不匹配xtile当在相同的数据集上运行时。

我尝试过的算法：

import numpy as np

def mark_weighted_percentiles(a, labels, weights, type):
# a is an input array of values.
# weights is an input array of weights, so weights[i] goes with a[i]
# labels are the names you want to give to the xtiles
# type refers to which weighted algorithm. 
#      1 for wikipedia, 2 for the stackexchange post.

# The code outputs an array the same shape as 'a', but with
# labels[i] inserted into spot j if a[j] falls in x-tile i.
# The number of xtiles requested is inferred from the length of 'labels'.


# First type, "vanilla" weights from Wikipedia article.
if type == 1:

    # Sort the values and apply the same sort to the weights.
    N = len(a)
    sort_indx = np.argsort(a)
    tmp_a = a[sort_indx].copy()
    tmp_weights = weights[sort_indx].copy()

    # 'labels' stores the name of the x-tiles the user wants,
    # and it is assumed to be linearly spaced between 0 and 1
    # so 5 labels implies quintiles, for example.
    num_categories = len(labels)
    breaks = np.linspace(0, 1, num_categories+1)

    # Compute the percentile values at each explicit data point in a.
    cu_weights = np.cumsum(tmp_weights)
    p_vals = (1.0/cu_weights[-1])*(cu_weights - 0.5*tmp_weights)

    # Set up the output array.
    ret = np.repeat(0, len(a))
    if(len(a)<num_categories):
        return ret

    # Set up the array for the values at the breakpoints.
    quantiles = []


    # Find the two indices that bracket the breakpoint percentiles.
    # then do interpolation on the two a_vals for those indices, using
    # interp-weights that involve the cumulative sum of weights.
    for brk in breaks:
        if brk <= p_vals[0]: 
            i_low = 0; i_high = 0;
        elif brk >= p_vals[-1]:
            i_low = N-1; i_high = N-1;
        else:
            for ii in range(N-1):
                if (p_vals[ii] <= brk) and (brk < p_vals[ii+1]):
                    i_low  = ii
                    i_high = ii + 1       

        if i_low == i_high:
            v = tmp_a[i_low]
        else:
            # If there are two brackets, then apply the formula as per Wikipedia.
            v = tmp_a[i_low] + ((brk-p_vals[i_low])/(p_vals[i_high]-p_vals[i_low]))*(tmp_a[i_high]-tmp_a[i_low])

        # Append the result.
        quantiles.append(v)

    # Now that the weighted breakpoints are set, just categorize
    # the elements of a with logical indexing.
    for i in range(0, len(quantiles)-1):
        lower = quantiles[i]
        upper = quantiles[i+1]
        ret[ np.logical_and(a>=lower, a<upper) ] = labels[i] 

    #make sure upper and lower indices are marked
    ret[a<=quantiles[0]] = labels[0]
    ret[a>=quantiles[-1]] = labels[-1]

    return ret

# The stats.stackexchange suggestion.
elif type == 2:

    N = len(a)
    sort_indx = np.argsort(a)
    tmp_a = a[sort_indx].copy()
    tmp_weights = weights[sort_indx].copy()


    num_categories = len(labels)
    breaks = np.linspace(0, 1, num_categories+1)

    cu_weights = np.cumsum(tmp_weights)

    # Formula from stats.stackexchange.com post.
    s_vals = [0.0];
    for ii in range(1,N):
        s_vals.append( ii*tmp_weights[ii] + (N-1)*cu_weights[ii-1])
    s_vals = np.asarray(s_vals)

    # Normalized s_vals for comapring with the breakpoint.
    norm_s_vals = (1.0/s_vals[-1])*s_vals 

    # Set up the output variable.
    ret = np.repeat(0, N)
    if(N < num_categories):
        return ret

    # Set up space for the values at the breakpoints.
    quantiles = []


    # Find the two indices that bracket the breakpoint percentiles.
    # then do interpolation on the two a_vals for those indices, using
    # interp-weights that involve the cumulative sum of weights.
    for brk in breaks:
        if brk <= norm_s_vals[0]: 
            i_low = 0; i_high = 0;
        elif brk >= norm_s_vals[-1]:
            i_low = N-1; i_high = N-1;
        else:
            for ii in range(N-1):
                if (norm_s_vals[ii] <= brk) and (brk < norm_s_vals[ii+1]):
                    i_low  = ii
                    i_high = ii + 1   

        if i_low == i_high:
            v = tmp_a[i_low]
        else:
            # Interpolate as in the type 1 method, but using the s_vals instead.
            v = tmp_a[i_low] + (( (brk*s_vals[-1])-s_vals[i_low])/(s_vals[i_high]-s_vals[i_low]))*(tmp_a[i_high]-tmp_a[i_low])
        quantiles.append(v)

    # Now that the weighted breakpoints are set, just categorize
    # the elements of a as usual. 
    for i in range(0, len(quantiles)-1):
        lower = quantiles[i]
        upper = quantiles[i+1]
        ret[ np.logical_and( a >= lower, a < upper ) ] = labels[i] 

    #make sure upper and lower indices are marked
    ret[a<=quantiles[0]] = labels[0]
    ret[a>=quantiles[-1]] = labels[-1]

    return ret

以下是 Stata 12 手册中的公式屏幕截图（StataCorp.2011。Stata 统计软件：第 12 版。德克萨斯州大学城：StataCorp LP，第 501-502 页）。如果这没有帮助，您可以在 Statalist 上问这个问题或直接联系 Philip Ryan（原始代码的作者）。

enter image description here

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Python匹配Stata加权xtile命令的最终方法？的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

如何在 pl/pgsql 中获取 foreach 中的当前键？

我迭代一个数组并对数组值及其键执行一些操作从PostgreSQL 9 1开始有了foreach循环所以数组值没有问题但是有什么优雅的方法来获取key吗我发现的唯一解决方案是为此维护额外的变量 CREATE OR REPLACE F
验证用户名的正则表达式

我正在尝试创建一个正则表达式来根据这些条件验证用户名仅包含字母数字人物下划线 and dot 下划线和点不能位于end or start用户名例如 username username username username 下划线和点不能
Option::map 的结果寿命不够长

我希望下面的两个函数是等效的但是第一个无法编译 pub fn does not work
为什么冒泡排序的复杂度是O(n^2)？

据我了解算法的复杂度是排序时执行的最大操作数因此冒泡排序的复杂度应该是算术级数从1到n 1 的总和而不是n 2 以下实现计算比较次数 public int sort int a int operationsCount 0 for
如何验证 JSF 表单上模式的字符串输入字段

我有一个要求其中接受字符串的输入字段只能具有这些格式之一使用 javascript 或 jsf 验证器实现此目的的最佳方法是什么 N A N N N 或 N A N N N N 上面的模式中可以有任何字母来代替 A 上面的模式中可以有除
C 语言的平均、最大和最小程序

所以我用 C 进行编码我需要编写代码从用户那里获取 n 个数字并找到它们的最小值最大值平均值以及它们的值的平方和到目前为止我已经有了平均值和平方和部分但最小值和最大值让我很困惑请记住我还处于非常初级的水平而且还没有达到
如何在 Java 中将 Vector
转换为 Vector
？
我将 JComboBox 与自定义类对象一起使用并且 equals 方法被重写并非常深入地集成到代码中问题是如果 JComboBox 下拉列表中的两个对象相等那么如果选择了其中一个则所有对象都会被选中并且获取选定索引将返回 1

将指针字符串转换为整数

我正在尝试转换treePtr gt item getInvest 其中包含一个字符串到一个整数这可能吗如果您有权获得提升 int number boost lexical cast

从 python shell 运行 Maya

因此我有数百个 Maya 文件必须使用一个脚本运行所以我在想为什么我还要费心打开maya 我应该能够从python shell 不是maya中的python shell windows中的python shell 来做到这一点所以想法

如何在 R 中对数据框进行排序

我是 R 新手想要对称为权重的数据框进行排序详细信息如下 gt str weights data frame 57 obs of 1 variable attr importance num 0 04963 0 09069 0 09

如何计算一个时期内有多少天？

对于以下Period计算 Period between LocalDate of 2015 8 1 LocalDate of 2015 9 2 结果是 P1M1D 这相当于 31 天 1 天 32 天为了这Period Period be

Actionscript 3.0 Flash 中精灵的碰撞检测

我正在 AS3 0 中制作一个类似 achtung die kurve 的游戏到目前为止我已经完成了 4 个不同玩家的动作效果还不错我现在要进行碰撞检测以测试蠕虫可以这么说是否正在相互碰撞或与自己的尾巴碰撞据我了解如果我

Ajax POST 导致 405（方法不允许） - Spring MVC

我正在尝试使用 POST 方法对 Spring 控制器操作进行 ajax 调用并使用 ResponseBody 从服务器返回一个对象奇怪的情况是添加 Spring Security 层后它停止工作之前一切正常我将尝试解释我解决问

如何返回 DictReader 的开头？

如果我打电话给company at node方法如下所示两次第一次调用时只会打印一行我想也许我需要seek回到读者的开头进行下一次调用所以我添加了self companies seek 0 到最后company at node方法

Swift 中 void 函数中的dispatch_async 和意外的非void 返回值

我的里面有一个函数appDelegate返回用户的当前位置现在我想在其他地方异步调用它我这样做了 func handleLocation gt CLLocation let priority DISPATCH QUEUE PRIORIT

Android 日历提供程序不返回最新数据

我正在使用以下代码 String selection dtstart gt now AND dtend lt endTime getTimeInMillis Cursor cursor context getContentResolver

使用 JavaScript 动态创建表

我正在使用类似的东西来创建动态表 for var i 0 i

使用来自 ObservedObject 的数据的 SwiftUI FetchRequest 谓词会导致属性初始化程序在 self 可用之前运行

我使用 CoreData 模型其中组对象具有与实体成员连接的 GroupMembers firstName String GroupMembers 有一个相应的属性组该属性组连接回组对象在我的详细视图中我传输一个组对象在 Fetc

如何将 CSS 网格中最后一行的元素居中？

我正在使用 CSS 网格来布局一些像这样的项目 container display grid grid template columns 16 666 16 666 16 666 16 666 16 666 16 666 item back

使用Python匹配Stata加权xtile命令的最终方法？

对于一个项目我需要复制 Stata 输出文件 dta 中当前存在的一些结果这些结果是根据较旧的 Stata 脚本计算得出的新版本的项目需要用Python编写我遇到困难的具体部分是根据 Stata 的加权版本匹配分位数断点计算xtil

热门标签

水流量检测模块

牛客网试题

牛客专题

各种報錯解決方案

返回参数类型

日常小知识

接口协议

进度

手撸框架系列

CAN总线学习

压缩机

制冷

空调

A6

奥迪

项目规范

java多态练习

JAVA作业

Powered by Hwhale

使用Python匹配Stata加权xtile命令的最终方法？

使用Python匹配Stata加权xtile命令的最终方法？ 的相关文章

随机推荐

热门标签

使用Python匹配Stata加权xtile命令的最终方法？的相关文章