请注意,这里我们讨论的是sintax,而不是模型的“优点”,对于此类问题您应该参考https://stats.stackexchange.com/.
Let's use this equation as an example: .
As correctly pointed, are not really in the equation, it's just an example.
Here:
Why the endogenous are problematic? Because they are correlated with the error , this causes problems with the classic OLS estimation.
are the instruments because they have some foundamental proprieties (more here):
- 与误差项无关;
- Does not affect given held constant;
- Correlated with .
在提议的语法中,我们有:
-
x
, exogenous, corresponding to (not problematic);
-
y1
, endogenous, corresponding to (problematic);
-
x2
, complete set of instruments, corresponding to .
在你引用的例子中,x2
共享一些共同的变量x
,这是一组外生变量(没有问题),加上另外两个工具。
该模型使用 3 个外生变量作为工具,再加上另外两个变量。
我不明白x和x2之间的区别
x2
是工具,可能与一组外生变量重叠,也可能不重叠(x
).
如果 x2 是完整的工具集,为什么它不包括内生变量 y1?
It mustn't包括内生变量,因为这些是方程需要使用仪器来处理的变量。
一个例子:
您想要建立一个模型来预测双亲家庭中的女性是否有工作。你有这些变量:
-
fem_works
,响应或因变量;
-
fem_edu
,女性的教育水平,外生;
-
kids
,夫妇的孩子数量,外生;
-
other_income
,家庭收入,内生的(您知道这是先验知识);
-
male_edu
,男人的教育水平,仪器(你选择这个)。
With ivprobit
,这将是:
mod <- ivprobit(fem_works ~ fem_edu + kids | other_income | fem_edu + kids + male_edu, data)
other_income
对于模型来说是有问题的,因为您怀疑它与误差项相关(其他冲击可能会影响两者fem_works
and other_income
),你决定使用male_edu
作为一种工具,以“缓解”这个问题。 (示例取自here)