一、实验目的
1.线性回归练习。“父亲高则儿子高,父亲矮则儿子矮”(即父亲与儿子身高相关,且为正相关)、“母高高一窝,父高高一个”(即母亲的身高比父亲的身高对子女的影响更大)的习俗传说是否成立?请在“父母子女身高”数据集(高尔顿数据集)基础上利用线性回归做出科学分析。
- 1)选取父子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。 现在如果有一个新家庭的数据,已知父亲身高75英寸,请测算儿子的身高为多少?
- 2)选取母子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。
- 3)根据以上数据,阐明你对习俗说法是否正确的分析。
- 4)你能用多元线性回归方法,计算出父亲、母亲与儿子身高的回归方程吗?
2.线性回归方法的有效性判别。 针对“Anscombe四重奏”数据集,用excel对四组数据进行线性回归分析,判断其中哪些回归方程是成立的,哪些不成立?不成立的应该如何解决?
二、高尔顿数据集
1)父子身高
在【数据】中使用【筛选】筛出儿子的身高数据。
在【数据】中使用【删除重复值】删去家庭编号相同的数据。
进行线性回归
【数据】→【数据分析】→【回归】
得到拟合图,双击进行设置
右键图中黄点数据,选择添加趋势线,并进行相关设置
观察上方的统计
通过拟合得出y(儿子身高)对于x(父亲身高)的函数:
代入父亲身高x=75(英尺),求得儿子身高y=71.345(英尺)
2)母子身高
流程同上,将x值换为母亲身高
相关系数R的平方很小,说明两者不具有相关性,即儿子身高基本不受母亲身高所影响。
然而常识表明这是不可能的,所以很有可能是我的统计方法有问题。
三、Anscombe四重奏
数据集一:
测定系数=0.666542
P=0.00217
回归方程:y=0.5x+3
数据集二:
测定系数=0.666242
P=0.002179
回归方程:y=0.5x+3
数据集三:
测定系数=0.666324
P=0.002179
回归方程:y=0.5x+3
数据集四:
测定系数=0.666707
P=0.002165
回归方程:y=0.5x+3
仅仅对这四个数据集进行线性回归分析,会发现分析得到的信息及其接近,甚至让人觉得是4组相同的数据,但是通过查看图形能发现这四个数据集的差距。
-
数据集一:六阶多项式
-
数据集二:二阶多项式
-
数据集三:基本符合
-
数据集四:y值全为8
四、参考
Excel实现线性回归分析——高尔顿数据集、四重奏数据集