准备报考考研经济学专业的考生需要复习哪些知识点呢?考研经济学栏目为各位考生提供了“应用统计硕士考研知识点:方差分析”相关备考资料,希望可以给各位考生提供参考。
方差分析
1. 通过分析数据的误差判断各总体均值是否相等研究一个或多个分类型自变量对一个数值型因变量的影响
单因素方差分析:涉及一个分类的自变量
双因素方差分析:涉及两个分类的自变量
2.(1)仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异
这种差异也可能是由于抽样的随机性所造成的
需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析
所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差
这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源
(2)随机误差
因素的同一水平(总体)下,样本各观察值之间的差异
比如,同一行业下不同企业被投诉次数是不同的
这种差异可以看成是随机因素的影响,称为随机误差
系统误差
因素的不同水平(不同总体)下,各观察值之间的差异
比如,不同行业之间的被投诉次数之间的差异
这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差
(3) 数据的误差用平方和(sum of squares)表示
组内平方和(within groups)
因素的同一水平(同一个总体)下样本数据的平方和
比如,零售业被投诉次数的误差平方和
组内平方和只包含随机误差
组间平方和(between groups)
因素的不同水平(不同总体)下各样本之间的平方和
比如,四个行业被投诉次数之间的误差平方和
组间平方和既包括随机误差,也包括系统误差
3.方差分析的基本假定
正态性:每个总体都应服从正态分布
对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
比如,每个行业被投诉的次数需服从正态分布
方差齐性:各个总体的方差须相同
各组观察数据是从具有相同方差的总体中抽取的
比如,四个行业被投诉次数的方差都相等
独立性:观察值是独立的(该假定不满足对结果影响较大)
4.问题的一般提法:(1)设因素有k个水平,每个水平的均值分别用m1 , m2, ¼, mk 表示
(2)要检验k个水平(总体)的均值是否相等,需要提出如下假设:
H0 : m1 = m2 = …= mk
H1 : m1 , m2 , ¼,mk 不全相等
5.SST:全部观察值xij与总平均值的离差平方和,反映全部观察值的离散状况
SSA:各组平均值xi与总平均值xij的离差平方和反映各总体的样本均值之间的差异程度,又称组间平方和该平方和既包括随机误差,也包括系统误差
SSE:每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况,又称组内平方和该平方和反映的是随机误差的大小
总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系:
SST = SSA + SSE
如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差
判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小