列联表在统计学中用来总结几个之间的关系绝对的变量。
在您的示例中,两个变量之间的列联表Gender
and Married
is a 频率这些变量的表同时呈现。
A 卡方检验在列联表上进行可以测试是否关系存在变量之间。这些效果被定义为行和列之间的关系。
scipy.stats.chi2_contingency https://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.chi2_contingency.html计算 -默认情况下- 皮尔逊卡方统计量 https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test.
此外,我们感兴趣的是Sig(2-Tailed) https://www.statisticshowto.datasciencecentral.com/sig2-tailed-interpreting-results/这是您示例中的 p 值。
The p-value是反对a的证据零假设. The smallerp 值,strong你应该的证据reject原假设。
你的情况的原假设是依赖列联表中观察到的频率。
选择显着水平 -alpha as 5%; your p-value is 4.502328957824834e-19
远小于.05
表明列联表的行和列是独立的。一般来说,这意味着有必要解释列联表中的单元格。
在这种特殊情况下,这意味着Male or Female(即性别)是not不同级别的分布相似婚姻状况(即已婚、未婚)。
所以,结婚可能是一种性别比另一种性别更重要的地位!
Update
根据你的评论,我发现你对这个测试有一些疑问。
这个测试基本上告诉你变量之间的关系是否是重要的(即可以代表人口)或来自chance!
因此,如果显着性水平较高(高 p 值),则意味着变量之间存在显着的依赖性!
Now, if Gender
and Married
都是模型中的特征,可能会导致过度拟合和特征冗余。然后,您可能想选择其中之一。
But if Gender
or Married
是因变量(例如y
),那么他们有重要关系就好了。
额外奖励:
有时,其中一项功能会变成暂时地期间的因变量数据插补 https://en.wikipedia.org/wiki/Imputation_(statistics)(当你有缺失值时)。