Python + Pandas 中的差异

2024-06-03

我正在尝试执行差异中的差异 https://en.wikipedia.org/wiki/Difference_in_differences（使用面板数据和固定效应）使用 Python 和 Pandas 进行分析。我没有经济学背景，我只是想过滤数据并运行我被告知的方法。然而，据我所知，我了解到基本的 diff-in-diffs 模型如下所示：

也就是说，我正在处理一个多变量模型。

下面是 R 中的一个简单示例：

https://thetarzan.wordpress.com/2011/06/20/differences-in-differences-estimation-in-r-and-stata/ https://thetarzan.wordpress.com/2011/06/20/differences-in-differences-estimation-in-r-and-stata/

可以看出，回归将一个因变量和树状观察集作为输入。

我的输入数据如下所示：

    Name    Permits_13  Score_13    Permits_14  Score_14    Permits_15  Score_15
0   P.S. 015 ROBERTO CLEMENTE   12.0    284 22  279 32  283
1   P.S. 019 ASHER LEVY 18.0    296 51  301 55  308
2   P.S. 020 ANNA SILVER    9.0 294 9   290 10  293
3   P.S. 034 FRANKLIN D. ROOSEVELT  3.0 294 4   292 1   296
4   P.S. 064 ROBERT SIMON   3.0 287 15  288 17  291
5   P.S. 110 FLORENCE NIGHTINGALE   0.0 313 3   306 4   308
6   P.S. 134 HENRIETTA SZOLD    4.0 290 12  292 17  288
7   P.S. 137 JOHN L. BERNSTEIN  4.0 276 12  273 17  274
8   P.S. 140 NATHAN STRAUS  13.0    282 37  284 59  284
9   P.S. 142 AMALIA CASTRO  7.0 290 15  285 25  284
10  P.S. 184M SHUANG WEN    5.0 327 12  327 9   327

通过一些研究，我发现这是在 Pandas 中使用固定效应和面板数据的方法：

Pandas 或 Statsmodels 中的固定效果 https://stackoverflow.com/questions/24195432/fixed-effect-in-pandas-or-statsmodels

我执行了一些转换来获取多索引数据：

rng = pandas.date_range(start=pandas.datetime(2013, 1, 1), periods=3, freq='A')
index = pandas.MultiIndex.from_product([rng, df['Name']], names=['date', 'id'])
d1 = numpy.array(df.ix[:, ['Permits_13', 'Score_13']])
d2 = numpy.array(df.ix[:, ['Permits_14', 'Score_14']])
d3 = numpy.array(df.ix[:, ['Permits_15', 'Score_15']])
data = numpy.concatenate((d1, d2, d3), axis=0)
s = pandas.DataFrame(data, index=index)  
s = s.astype('float')

但是，我不知道如何将所有这些变量传递给模型，例如可以在 R 中完成：

reg1 = lm(work ~ post93 + anykids + p93kids.interaction, data = etc)

这里，13、14、15代表2013年、2014年、2015年的数据，我认为应该用来创建面板。我这样称呼该模型：

reg  = PanelOLS(y=s['y'],x=s[['x']],time_effects=True)

这是结果：

（一位经济学家）告诉我，这似乎并不具有固定效应。

--EDIT--

我想验证的是在给定时间的情况下许可数量对分数的影响。许可证的数量就是治疗，它是一个强化治疗.

代码示例可以在这里找到：https://www.dropbox.com/sh/ped312ur604357r/AACQGloHDAy8I2C6HITFzjqza?dl=0 https://www.dropbox.com/sh/ped312ur604357r/AACQGloHDAy8I2C6HITFzjqza?dl=0.

看来您需要的不是差异中的差异（DD）回归。当您可以区分对照组和治疗组时，DD 回归就有意义。一个标准的简化示例是药物的评估。您将一群病人分成两组。其中一半人没有接受任何治疗：他们是对照组。另一半则接受药物治疗：他们是治疗组。从本质上讲，DD 回归将捕捉到这样一个事实：药物的真正效果不能直接通过服用药物的人数变得健康来衡量。直觉上，你想知道这些人是否比那些没有服用任何药物的人表现得更好。这个结果可以通过添加另一个类别来完善：安慰剂，即给予看起来像药物但实际上不是药物的人……但这将是一个明确定义的群体。最后但并非最不重要的一点是，要使 DD 回归真正合适，您需要确保各组的异质性不会导致结果出现偏差。对于你的药物测试来说，一个糟糕的情况是，如果治疗组只包括年轻人和超级健康的人（因此总体上更有可能治愈），而对照组是一群老酗酒者......

就你的情况而言，如果我没有弄错的话，每个人都会在某种程度上受到“对待”......所以你更接近一个标准的回归框架，其中要测量X对Y的影响（例如智商对工资）。我知道您想衡量许可数量对分数的影响（或者是其他方式？-_-），并且您需要处理经典的内生性，即如果彼得比保罗更熟练，他会通常会获得更多许可和更高分数。因此，您真正想要使用的是这样一个事实：随着时间的推移，具有相同水平的技能，彼得（分别是保罗）将在多年来“获得”不同级别的许可证......在那里您将真正衡量许可证的影响得分上...

我可能猜得不好，但我想坚持这样一个事实：如果您没有付出足够的努力来理解/解释数据中发生的情况，有很多方法可以获得有偏见的、因此毫无意义的结果。关于技术细节，您的估计只有年份固定效应（可能没有估计，而是通过贬低考虑在内，因此不会在输出中返回），所以您想要做的是添加entity_effects = True。如果你想更进一步...恐怕迄今为止任何Python包都没有很好地涵盖面板数据回归（包括计量经济学的参考统计模型），所以如果你不愿意投资...我宁愿建议使用 R 或 Stata。同时，如果您只需要固定效应回归，您还可以使用 statsmodels 获得它（如果需要，它还允许对标准错误进行聚类......）：

import statsmodels.formula.api as smf
df = s.reset_index(drop = False)
reg = smf.ols('y ~ x + C(date) + C(id)',
              data = df).fit()
print(reg.summary())
# clustering standard errors at individual level
reg_cl = smf.ols(formula='y ~ x + C(date) + C(id)',
                 data=df).fit(cov_type='cluster',
                              cov_kwds={'groups': df['id']})
print(reg_cl.summary())
# output only coeff and standard error of x
print(u'{:.3f} ({:.3f})'.format(reg.params.ix['x'], reg.bse.ix['x']))
print(u'{:.3f} ({:.3f})'.format(reg_cl.params.ix['x'], reg_cl.bse.ix['x']))

关于计量经济学，您可能会在交叉验证上获得比这里更多/更好的答案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python + Pandas 中的差异的相关文章

查找数据集中的异常值

我有一个 python 脚本它创建服务器正常运行时间和性能数据列表的列表其中每个子列表或行包含特定集群的统计信息例如格式良好的它看起来像这样 Cluster Availability Requests Sec Errors S
使用不带引号的块样式的 Python YAML 转储

如何使用 PyYAML 加载和转储 YAML 以便它尽可能地使用原始样式我有 Python 来加载和转储 YAML 数据例如 import sys import yaml def represent dictorder self dat
Python：访问另一个类中一个类的属性和方法

假设我有两个 A 类和 B 类 Class A A s attributes and methods here Class B B s attributes and methods here 现在我可以评估 B 类对象中 A 的属性如下所
Ruby 相当于 Python 的多处理模块是什么？

为了在 Ruby 或 Python 中获得真正的并发性我需要创建新的进程 Python 使用以下命令使这变得非常简单multiprocessing模块它抽象了所有 fork wait 的好处让我专注于我的代码 Ruby 有类似的东西吗
使用 setuptools (pip) 时如何打印警告和错误

我正在使用 setuptools 来打包代码以便可以使用以下命令轻松安装它 cd project name pip install 在设置过程中我想警告用户有关预先存在的配置文件的信息并在系统上打印一些安装后说明例如 etc pro
Python TypeError：不支持的操作数类型 -：“int”和“function”

我是 Python 初学者正在做一项作业我不断得到TypeError unsupported operand type s for int and function 即使在研究了错误并应用了建议的修复之后我并不是在寻找任何人给我一个解
python 函数 *args 和 **kwargs 以及其他指定的关键字参数

我有一个 Python 类它的方法应该以这种方式接受参数和关键字参数 class plot def init self x y self x x self y y def set axis self args xlabel x ylabe
为什么 scikit-learn SVM.SVC() 非常慢？

我尝试使用SVM分类器来训练大约10万个样本的数据但我发现它非常慢甚至两个小时后也没有任何反应当数据集有大约 1k 个样本时我可以立即得到结果我还尝试了 SGDClassifier 和朴素贝叶斯速度相当快几分钟内就得到了结果
os.walk 无需深入研究下面的目录

我该如何限制os walk只返回我提供的目录中的文件 def dir list self dir name whitelist outputList for root dirs files in os walk dir name for f
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
如何向 Jupyter (ipython) 笔记本自动添加扩展？

我已经安装了扩展 calico document tools 我可以使用以下命令从 Jupyter 笔记本中加载它 javascript IPython load extensions calico document tools 如何为每个
如何在我的 GUI 上绘图

我正在设计一个 GUIPyQt当我单击一个按钮来绘制我创建的函数的数据图时我需要显示一个 matplotlib pylab 窗口它就像 Matlab 中使用的运行时每次按下该按钮时我都想将 matplotlib pylab 窗口保留
使用 SQLAlchemy 查询 Pandas DataFrame 时重命名列

当您将数据查询到 pandas 数据帧时有没有办法保留 SqlAlchemy 属性名称这是我的数据库的简单映射对于 school 表我将数据库名称 SchoolDistrict 重命名为较短的 district 我从 DBA 中删除
过滤给定范围内的坐标

我有数百个带有地理位置的 out 文件我将把它们批量导入到 SQLite 数据库中但是为了节省时间我只会导入地理坐标在某些间隔内的线文件是这样的 value value longitude latitude value value
如何隐藏 Tkinter python Gui

有人知道如何隐藏 python GUI Tkinter 我已经创建了键盘记录器对于 GUI 我使用了 python 模块 Tkinter 我想添加名为 HIDE 的按钮因此当用户单击它时它将隐藏 GUI 当用户按下 CTRL E 之类
如何使用 opencv python 根据检测到的物体的位置生成其热图

我需要根据对象的位置生成其热图示例视频帧中检测到的绿色球如果它长时间停留在某个位置那么该位置应该是红色的并且球在短时间内经过的帧中的位置必须是蓝色的这样我就需要生成热图提前致谢那么你在这里可以做的是 1 首先定义一个热图作为
Python - 将列表作为参数传递给 SQL，以及更多变量

我试图在 python 3 6 中将未知数量的参数传递给 SQL Server 这是我使用 pypyodbc 的代码 cursor cnxn cursor theargs 1033286869 1053474957 1063654630 1
导入错误：无法导入名称

我有一个名为 google translate python 的库 https github com terryyin google translate python https github com terryyin google tra
Mac 无法安装 Tensorflow

我检查了我的 pip3 和 python3 版本 tensorflow MacBook Pro de Hector 2 tensorflow hectoresteban pip3 V pip 10 0 1 from Users hector
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

使用智能菜单jquery打印json

menu name Computers children name Notebook children name Apple name Windows name Tablets children name Apple name Androi
如何覆盖 go 模块中的依赖项？

In dep您可以选择覆盖依赖项并使其指向不同的存储库例如以下内容https github com kubermatic glog logrus https github com kubermatic glog logrus库一需要将以下
将跟踪输出重定向到控制台

假设我正在 VB Net 中开发一个小型批处理控制台应用程序我希望能够像这样构建应用程序 Sub WorkerMethod Do some work Trace WriteLine Work progress Do more work T
如何使用 MySQL 和 PHP 在数据库中存储标签？

我想创建一个数据库来存储用户为其问题输入的标签然后为发布的每个单独问题显示所有标签像这里这样的东西这是现在为我做所有事情的表 CREATE TABLE questions tags id INT UNSIGNED NOT NULL A
Django 模型同步表

如果我更改 Django 模型中的字段如何将其与数据库表同步我是否需要在数据库上手动执行此操作或者是否有工具可以帮助完成此过程唉 Django 不支持任何简单的解决方案 django 唯一能为你做的就是使用与新模型匹配的新表重新启动
C++ 不强制 (cond ? string_1 : string_2) 初始化字符串吗？

考虑到 void foo std string s 在该函数内部表达式s is lvalue std string not std string 因为引用在表达式中并不真正存在 expr type 1 http eel is c dra
基本 ODR 违规：.h 文件中的成员函数

免责声明这可能是一个基本问题但我是一名理论物理学家接受过训练试图学习正确的编码所以请耐心等待假设我想对一个相当复杂的物理系统进行建模根据我的理解对该系统进行建模的一种方法是将其作为一个类引入然而由于涉及到系统类会很大
Excel工作表中的动态减法公式

我需要在Excel中编写一个动态减法公式该公式从其上方的单元格中减去指定列的单元格例如 A2 A1 G1 G列固定 and A3 A2 G2 and A4 A3 G3 等等 Excel 足够智能可以使用动态引用和对当前单元格的相对
NSArray 中不重复的所有可能组合

假设我有一个包含 3 个数字的数组 NSArray array 1 2 3 我想进行所有组合而不重复所以我需要的是这样的 1 2 3 1 2 2 3 1 3 1 2 3 我当前的代码是这样的 NSArray array 1 2 3 int
使 bootstrap popover 使用自定义 html 模板

我正在使用输入组文本框我需要 Bootstrap 3 弹出框才能工作并且弹出框模板应由我定义和设计所以我目前拥有的 html 是 div class row div class col sm 2 div class input gro
密码更改后的 Kerberos/Spnego 身份验证问题

我将 Tomcat 设置为使用 SPNEGO 身份验证因此用户可以单点登录到我们的 Web 应用程序而无需输入密码并且一切正常昨天我更改了服务帐户的密码并重新创建了 keytab 文件但在 Tomcat 重新启动后 SSO 无
ScrollView 中的 ViewPager 不会垂直滚动

我有一个layout有一个ViewPager自定义内部ScrollView并且 ViewPager 不会垂直滚动自定义 ScrollView 用于修复使用 ScrollView 进行可怕的选项卡滑动的问题是的有足够的内容可以滚动我已
ScrollTop 在 Chrome/Safari 中不起作用

我的网站上有一个循环内的表单当有人提交表单时查询字符串会添加到 URL 中例如 updated 111 然后我的 JQuery 脚本检查数字的 url 并在提交表单并重新加载页面后滚动到该 div 该脚本在 Firefox 中运行良
在网络浏览器上显示 UTF-16 字符

我打印了一些 UTF 16 编码的字符并尝试在 Firefox 中显示它它显示为所以我进入工具 gt 编码并将编码从 UTF 8 更改为 UTF 16 我也尝试直接在 HTML 中更改字符集但是当我这样做时我的页面完全被符号淹
为什么 Netbeans 无法识别“cbegin()”、“cend()”、“unordered_set”以及其他 C++ 功能？

我的 C 应用程序在 Netbeans 中按预期编译和运行但是代码帮助不识别诸如以下的术语 cbegin cend unordered set 如红色下划线所示代码帮助确实可以识别end 然而我尝试转到项目 gt 属性 gt 代码
常见问题解答：为什么仅当类至少有 1 个虚拟方法时，dynamic_cast 才有效？

这在 C 中无法编译 class A class B public A A a new B B b dynamic cast
实体框架 - 实体类型之间的关联已被切断问题

您好当我尝试删除绑定表中的一行时我遇到了实体框架问题这些表看起来像这样 Table Users public class UserEntity BaseEntity Required MaxLength 30 public str
AWS CDK Secrets Manger 获取完整的 arn (python)

我正在尝试创建一个使用需要秘密的脚本的金丝雀资源我正在尝试向金丝雀角色添加政策声明我将其作为 cdk 的一部分创建为此我需要获取完整的秘密 arn 我可以使用以下命令获取部分 arn secret from name secrets
使用 Python 在 Azure 存储 blob 中创建 PDF 文件的最佳方法是什么？

我是 Python 新手我提出了使用 Python 脚本创建包含 SQL Server 中可用数据的 PDF 文件的要求据我研究有许多库可用于此目的但大多数方法是生成 HTML 字符串然后将其转换为本地目录中的 PDF 文件但他
Python + Pandas 中的差异

我正在尝试执行差异中的差异 https en wikipedia org wiki Difference in differences 使用面板数据和固定效应使用 Python 和 Pandas 进行分析我没有经济学背景我只是想过滤数

Python + Pandas 中的差异

Python + Pandas 中的差异 的相关文章

随机推荐

热门标签

Python + Pandas 中的差异的相关文章