我想在 Stata 中进行简单的加权热甲板插补。在 SAS 中,等效命令如下(请注意,这是一个较新的 SAS 功能,从 2015 年左右的 SAS/STAT 14.1 开始):
proc surveyimpute method=hotdeck(selection=weighted);
为了清楚起见,基本要求是:
插补大多数是基于行的或同时的。如果第 1 行捐赠x
到第 3 行,那么它也必须捐赠y
.
必须考虑重量。体重 = 2 的捐赠者被选择的可能性是体重 = 1 的捐赠者的两倍
我假设丢失的数据是矩形的。换句话说,如果一组可能缺失的变量包含x
and y
那么要么两者都缺失,要么都不缺失。这是一些生成示例数据的代码。
global miss_vars "wealth income"
global weight "weight"
set obs 6
gen id = _n
gen type = id > 3
gen income = 5000 * _n
gen wealth = income * 4 + 500 * uniform()
gen weight = 1
replace weight = 4 if mod(id-1,3) == 0
// set income & wealth missing every 3 rows
gen impute = mod(_n,3) == 0
foreach v in $miss_vars {
replace `v' = . if impute == 1
}
数据如下:
id type income wealth weight impute
1. 1 0 5000 20188.03 4 0
2. 2 0 10000 40288.81 1 0
3. 3 0 . . 1 1
4. 4 1 20000 80350.85 4 0
5. 5 1 25000 100378.8 1 0
6. 6 1 . . 1 1
换句话说,我们需要随机(加权)选择一个捐赠者同类型的观察每行缺失值,并使用该捐赠者填写收入和财富值。在实际使用中,类型变量的生成当然是它自己的问题,但我在这里保持非常简单以关注主要问题。
例如,第 3 行可能类似于以下任一 post hotdeck(因为它填充了第 1 行或第 2 行的收入和财富(但相反,永远不会获取第 1 行的收入和第 2 行的财富):
3. 3 0 5000 20188.03 1 1
3. 3 0 10000 40288.81 1 1
另外,由于第 1 行的权重 = 4,第 2 行的权重 = 1,因此第 1 行应在 80% 的时间为供体,第 2 行应在 20% 的时间为供体。