实证论文|数据处理问题合集

2023-11-14

目录

1stata 如何留下至少有连续5年的观测?

 2stata如何剔除13年及以后公司样本 python

3stata如何根据文本数据生成新数据

4如何将季度数据处理为年度数据

5如何根据分位数划分组别

6如何将省份划分为东中西部地区

7出现非唯一标识怎么快速查找

8将一组数据求均值


发现在处理数据时会遇到很多各种各样无法明确表达的需求,整理出来以供参考:

1stata 如何留下至少有连续5年的观测?

解决方法:

tsset stkcd year
xtpattern, gen(pp)                 // 记录每家公司的样本形态
gen p5 = strpos(pp, "11111")
drop if p5 == 0                 // 仅保留连续五年有资料的公司
tsset, clear

 2stata如何剔除13年及以后公司样本 python

3stata如何根据文本数据生成新数据

参考stata中如何将字符型变量分类生成数值型新分类变量 - Stata专版 - 经管之家(原人大经济论坛)

 stata 如何处理文本信息进行赋值?

可以用 strmatch

假如医疗机构的名称的变量是name,新变量叫new

gen new = .

replace new = 1 if strmatch(name, "*医院*")

replace new = 2 if strmatch(name, "*疾控*")

也可以直接使用

gen pol=.
replace pol = 2013 if 所属省份=="重庆市"

 如果表示属于北京省或安徽省

replace pol = 2014 if 所属省份=="北京市" | 所属省份=="安徽省"

|表示或

如果表示属于广东省但并不属于深圳市

replace pol = 2015 if 所属省份=="广东省" & var23 !="深圳市"

4如何将季度数据处理为年度数据

参考文章:Stata如何删除季度数据,保留年末数据?我代码哪里不对 - Stata专版 - 经管之家(原人大经济论坛)

gen d = regexm(会计期间, "12-31")
keep if d == 1

提取数据文章:Stata字符串函数:快捷提取字符信息_stata提取字符串中数字_celine0227的博客-CSDN博客

5如何根据分位数划分组别

参考:stata怎么将某一变量按大小分为三组 - Stata专版 - 经管之家(原人大经济论坛)

xtile fin3=fin1,nq(4)

6如何将省份划分为东中西部地区

参考:stata中如何根据省份名字,产生东中西变量 - Stata专版 - 经管之家(原人大经济论坛)

gen area=2 if province=="北京" | province=="福建省" | province=="广东省" | province=="广西壮族自治区" | province=="海南省" | province=="河北省" | province=="江苏省" | province=="辽宁省" | province=="山东省" | province=="上海" | province=="天津" | province=="浙江省"
replace area=1 if province=="安徽省" | province=="河南省" | province=="黑龙江省" | province=="湖北省" | province=="湖南省" | province=="吉林省" | province=="江西省" | province=="内蒙古自治区" | province=="山西省"
replace area=0 if province=="甘肃省" | province=="贵州省" | province=="宁夏回族自治区" | province=="青海省" | province=="陕西省" | province=="四川省" | province=="西藏自治区" | province=="新疆维吾尔自治区" | province=="云南省" | province=="重庆"

7出现非唯一标识怎么快速查找

isid year code//检查是否是唯一值
unique year code
duplicates list year code


8将一组数据求均值

bysort x2:egen new=mean (x1)。 这是根据x2分组求x1的均值的命令,得到new变量,然后你把这个变量的值赋给m1

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

实证论文|数据处理问题合集 的相关文章

  • Google App Engine queue.yaml 无法在开发服务器中工作

    我无法让 dev appserver py 识别我使用queue yaml 创建的自定义队列 他们没有出现在http localhost 8000 taskqueue http localhost 8000 taskqueue 当我尝试向其
  • 递归 lambda 表达式可能吗?

    我正在尝试编写一个调用自身的 lambda 表达式 但我似乎找不到任何语法 或者即使它是可能的 本质上我想将以下函数传输到以下 lambda 表达式中 我意识到这是一个愚蠢的应用程序 它只是添加 但我正在探索可以在 python 中使用 l
  • 如何在python 3.7中生成条形码

    我正在使用 python 3 7 为了生成条形码 我尝试使用安装 pyBarcode 库pip install pyBarcode 但它显示以下错误 找不到满足 pyBarcode 要求的版本 来自版本 找不到 pyBarcode 的匹配分
  • 如何检查python xlrd库中的excel文件是否有效

    有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件 我知道还有其他库可以检查文件头 我可以使用文件扩展名检查 但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
  • 检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

    我很确定有一个常见的习语 但我无法通过谷歌搜索找到它 这是我想做的 用Java Applies the predicate to all elements of the iterable and returns true if all ev
  • pyspark 数据框中的自定义排序

    是否有推荐的方法在 pyspark 中实现分类数据的自定义排序 我理想地寻找 pandas 分类数据类型提供的功能 因此 给定一个数据集Speed列 可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
  • sklearn 中的 pca.inverse_transform

    将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维 当我根据定义执行逆变换时 它不是应该返回原始数据 即 X 二维
  • Pandas:如果单元格包含特定文本则删除行

    pandas 中的这段代码不起作用 如果该列包含提供的任何文本 数字 我希望它删除该行 目前 我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作 因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
  • 没有名为 StringIO 的模块

    我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
  • 在 Django OAuth Toolkit 中安全创建新应用程序

    如何将 IsAdminUser 权限添加到 Django OAuth Toolkit 中的 o applications 视图 REST FRAMEWORK DEFAULT PERMISSION CLASSES rest framework
  • .pyx 文件出现未知文件类型错误

    我正在尝试构建一个包含 pyx 文件的 Python 包 pyregion 但在构建过程中出现错误 检查以下输出 python setup py build running build running build py creating b
  • 使用 python 绘制正值小提琴图

    我发现小提琴图信息丰富且有用 我使用 python 库 seaborn 然而 当应用于正值时 它们几乎总是在低端显示负值 我发现这确实具有误导性 尤其是在处理现实数据集时 在seaborn的官方文档中https seaborn pydata
  • 如何在 pandas 中使用 read_fwf 跳过空行?

    I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
  • 用 python 编写的数学语法检查器

    我需要的只是使用 python 检查字符串是否是有效的数学表达式 为了简单起见 假设我只需要 运算符 也作为一元 带有数字和嵌套括号 为了完整性 我还添加了简单的变量名称 所以我可以这样测试 test 3 2 1 valid test 3
  • ANTLR 获取并拆分词法分析器内容

    首先 对我的英语感到抱歉 我还在学习 我为我的框架编写 Python 模块 用于解析 CSS 文件 我尝试了 regex ply python 词法分析器和解析器 但我发现自己在 ANTLR 中 第一次尝试 我需要解析 CSS 文件中的注释
  • 动态过滤 pandas 数据框

    我正在尝试使用三列的阈值来过滤 pandas 数据框 import pandas as pd df pd DataFrame A 6 2 10 5 3 B 2 5 3 2 6 C 5 2 1 8 2 df df loc df A gt 0
  • 当数据库不是 Django 模型时,是否可以使用数据库中的表?

    是否可以从应用程序数据库中的表获取查询集 该表不是应用程序中的模型 如果我有一个不是名为 cartable 的模型的表 从概念上讲 我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
  • Elasticsearch 通过搜索返回拼音标记

    我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换 从弹性搜索中进行一些字符串匹配 我的问题是
  • 在 Django 查询中使用 .extra(select={...}) 引入的值上使用 .aggregate() ?

    我正在尝试计算玩家每周玩游戏的次数 如下所示 player game objects extra select week WEEK games game date aggregate count Count week 但姜戈抱怨说 Fiel
  • 如何根据第一列创建新列,同时考虑Python Pandas中字母和列表的大小? [复制]

    这个问题在这里已经有答案了 我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做

随机推荐

  • VS2010点滴——不能将参数 1 从“const char [11]”转换为“LPCWSTR”

    include windows h include iostream using namespace std int main char Write 10 Read 10 for int i 0 i lt 10 i Write i 10 i
  • Ubuntu 安装指定版本 Mysql,并设置远程连接(以安装mysql 5.5 为例)

    目录 一 安装Mysql 1 卸载Mysql 可跳过 2 安装mysql 软件源 3 安装mysql 5 5 4 验证测试 二 设置远程登录 1 允许使用root账号远程连接 2 Mysql 允许远程登录 一 安装Mysql 1 卸载Mys
  • 普通函数与模板函数的调用规则

    普通函数与模板函数的调用规则 1 如果函数模板和普通函数都可以实现 优先调用普通函数 2 可以通过空模板参数列表来强制调用函数模板 3 函数模板也可以发生重载 4 如果函数模板可以产生更好的匹配 优先调用函数模板 代码示例 1 如果函数模板
  • JS中sort方法排序

    JS中sort方法排序 一 数字排序 string类型 二 数字排序 string类型和number类型 三 混合排序 string number和字母 四 函数排序 五 数组对象排序 一 数字排序 string类型 var arr 1 2
  • 【翻译】如何选择一个开源软件许可证 Choosing an OSS license doesn’t need to be scary...

    本文禁止转载 选择一个开源软件许可证并不需要很可怕 下列哪一项最能描述你的情况 我想简单和宽容 MIT许可证是一个许可证 就是短了点 它让人们做任何他们想与你的代码 只要他们提供归属回你和不承担你的责任 jQuery和Rails使用MIT许
  • Mysql5.7_SpatialAnalysisFunctions空间分析函数

    Mysql5 7 SpatialAnalysisFunctions空间分析函数 12 17 Spatial Analysis Functions 空间分析函数 12 17 1 Spatial Function Reference空间函数参考
  • Springboot项目启动后无法打开jsp、html等页面问题(@RestController与@ResponseBody + @Controller的区别)

    今天试着用IDEA构建一个springboot mybatis druid整合的项目 刚配置完 想测试一下启动项目 然后通过controller层打开一个html页面 结果发现一直打不开 代码和配置都是对的 最后发现掉屎坑里去了 一开始在c
  • 群G及群运算

    定义 一个 非空集合G中 如果定义了 一个 乘法 运算 元素的二元运算 满足以下四个性质 那么该非空集合G称为群 封闭性 a b G a b c G 结合律 a b c G a b c a b c 单位元 e G a G e a a e a
  • hadoop初级到资深

    hadoop初级到资深 2015 06 13 12 08 165人阅读 评论 0 收藏 举报 分类 hadoop 3 1 hadoop是什么 适合大数据的分布式存储与计算平台 2 hadoop版本有哪些 Apache 官方版本 1 1 2
  • 数据库表结构设计方法及原则

    在目前的企业信息系统中 数据库还是最佳的数据存储方式 虽然已经有很多的书籍在指导我们进行数据库设计 但应该那种方式是设计数据库的表结构的最好方法 设计时应遵从什么样的原则 四个范式如何能够用一种方式达到顺畅的应用等是我一直在思考和总结的问题
  • 计算机组成原理(海明码效验)(3)-软件设计(二十四)

    计算机组成原理 2 软件设计 二十三 https blog csdn net ke1ying article details 129394115 一 总线 分为 内部总线 系统总线 外部总线 内部总线 指芯片级别的总线 连接各个芯片 系统总
  • 广义线性模型——Logistic回归模型(1)

    广义线性模型 GLM 是线性模型的扩展 它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系 广义线性模型拟合的形式为 其中g Y 是条件均值的函数 称为连接函数 另外 你可放松Y为正态分布的假设 改为Y 服从指数分布族中的
  • 12-git-pycharm配置.ignore文件

    pycharm配置 ignore文件 前言 安装插件 使用 添加其他忽略文件 前言 在开发中经常需要配置提交git的忽略文件 本篇来学习下使用pycharm自动生成 ignore文件 安装插件 Files gt setting gt Plu
  • 基于区块链技术的电子病历研究----2019年5月份

    FJTCM区块链技术开发学习小组 时间 2019 05 31 基于区块链技术的电子病历研究 摘 要 提出了一种基于区块链技术的新型分布式电子病历记录管理系统 系统为患者提供了一个全面的 不可变的日志 并且可以方便地访问其医疗信息 利用独特的
  • JQuery隐藏、添加select的option

    需求 级联查询 根据前一个select选择的值 动态改变后一个select的值 页面效果大致如下 代码 ul li p 设备类型 p li ul
  • MySQL 数据库

    MySQL 数据库 概念 数据 所谓数据 Data 是指对客观事物进行描述并可以鉴别的符号 这些符号是可识别的 抽象的 它不仅仅指狭义上的数字 而是有多种表现形式 字母 文字 文本 图形 音频 视频等 现在计算机存储和处理的数据范围十分广泛
  • Vue 3.0双向绑定原理的实现

    proxy方法 vue js 是采用数据劫持结合发布者 订阅者模式的方式 通过new Proxy 来劫持各个属性的setter getter 在数据变动时发布消息给订阅者 触发相应的监听回调 Vue 3 0与Vue 2 0的区别仅是数据劫持
  • Python while循环语句语法格式

    视频版教程 Python3零基础7天入门实战视频教程 初始化语句 while 循环条件 循环体 迭代语句 初始化语句 一条或多条语句 用于完成一些初始化工作 初始化语句在循环开始之前执行 循环条件 这是一个布尔表达式 这个表达式能决定是否执
  • 主板电源接口示意图_台式电脑主板的接口线及安装细节图解

    如果你是玩台式电脑用户 那么你肯定知道 电脑最麻烦的就是主板上的接口了 稍有不慎接错线主板就会烧毁 因此这是一个很重要的环节 今天小编就来给大家介绍主板上的接口都是些什么 该怎么接 01 认识主板供电接口 在主板上 我们可以看到一个长方形的
  • 实证论文|数据处理问题合集

    目录 1stata 如何留下至少有连续5年的观测 2stata如何剔除13年及以后公司样本 python 3stata如何根据文本数据生成新数据 4如何将季度数据处理为年度数据 5如何根据分位数划分组别 6如何将省份划分为东中西部地区 7出