复杂抽样在经济统计中的应用研究
1.国内外研究现状概述
关于复杂数据推断的研究,国外学者起步较早,丰硕的研究成果为这一领域的发展奠定了基础。在随机化理论框架方面,Neyman在1934年提出了基于设计的抽样推断理论。Rao和Bellhouse[1]对抽样调查的发展做了简单的概述。Wolter[2]系统地给出了随机组法、平衡半样本法、刀切法、自助法等复杂抽样的四种方差估计方法。Royall[3]发表的文章是基于推断理论体系形成的标志,文章详细介绍了超总体模型的设定及估计方法。在应用方面,Battes(1988)[4]利用小区域层次模型,结合抽样调查数据对美国各县农作物面积进行了估计;Rao,Choudhry(1995)[5]在基于模型的方法下对加拿大Nova Scotia省内征收个人所得税时的漏税额进行很好的估计。
与国外相比,我国研究者虽然就抽样推断问题的研究比较晚,但也取得了不错的成就。冯士雍,施锡铨(1996)[6]在《抽样调查——理论、方法与实践》中介绍了民间统计机构实施的传统抽样调查方法及基于设计的抽样推断方法;在基于模型的推断方法方面,邹国华,冯士雍(2007)[7]在《超总体模型下有限总体的估计》中系统阐述了超总体模型与统计学其他分支联系,综述了超总体模型的估计问题的若干进展;在基于模型辅助法方面,冯士雍(2007)[8]发表的《抽样调查应用于理论中的若干前言问题》中的部分内容详细介绍了三种抽样推断方法的发展史,并对各估计方法的主要思想做了的概述;金勇进,贺本岚(2011)[9]所写的《复杂抽样推断方法体系的比较研究》中将基于设计的统计推断与基于模型的统计推断的优缺点进行比较研究,并一步提出了模型辅助法的模型推断。
2. 复杂抽样三种推断方法简介
2.1基于设计的方法
基于设计的抽样理论以随机化理论为基础,认为总体是确定的,随机变量为总体单元进入样本的标示变量。这种方法不需要对随机变量的分布做任何假设,是一种无参数的推断方法。
使用基于设计的推断方法具有许多优点。首先,该方法考虑了抽样设计特征,了解设计特征的相关信息对参数的推断具有一定的辅助作用;其次,在大样本情形下,估计量渐进服从正态分布,通过正态分布理论下寻找的优化估计量能够提高推断的可靠性;最后,该方法不需要有模型假设,所做的推断仅以随机化理论及抽样设计方案为基础。
使用基于设计的方法也具有一些缺陷。首先,该方法并不能在小样本条件下得到稳定一致的估计量;其次,当总体单元存在线性趋势或者波动性时,利用系统抽样方法得到的方差估计量会使得方差偏大;最后,当存在无回答、测量误差等非随机抽样误差时,基于设计的随机化假设就会被破坏,推断的可信度则会降低。
2.2基于模型的方法
基于模型的抽样方法将总体取值视为随机的,认为总体是从一个超总体模型中随机抽取而来的样本,它不依赖于传统方法的随机化理论及抽样设计,但需要提前设定模型结构。基于模型的方法将统计学上线性拟合原理及抽样理论中推断估计方法相结合,提高了参数推断的效率,丰富了抽样推断的估计技术。
2.2.1基于模型的推断步骤
基于模型的推断步骤主要由建模、模型检验、参数推断三个部分组成。基于模型的推断方法不依赖于抽样设计的信息,而是对假定的超总体进行拟合。因此,超总体模型拟合的好坏直接影响到了参数推断的准确性。一个好的模型能够消除抽样设计信息所带来的不足,从而提高估计效率;相反,模型结构不准确将会导致估计量出现较大的偏差。
2.2.2基于模型推断方法的优缺点
基于模型的推断方法主要优点在于它不依赖于抽样设计,因此该方法也适用于非概率抽样的情形。对于小样本情形,基于模型的方法也能较好的进行推断,弥补了基于设计的抽样推断方法下的不足。
然而,基于模型的方法也有其不完善之处。基于模型的方法的估计准确性依赖于模型假设,如果假设的模型能够真实反映数据间的联系,则其估计精度较高,反之,则无法得到理想的估计结果。
2.3模型辅助推断法
基于设计推断法与基于模型推断法各有优劣,基于设计推断法能够产生稳定估计量,却受限与样本量及抽样设计的随机性;基于模型推断法不受抽样设计及数据特征的影响,却依赖于假定模型的准确性。为解决上述两种推断思路的局限性,统计学家在已有的理论基础上提出了模型辅助推断法。模型辅助推断法以模型推断法为核心,以抽样设计推断作为辅助信息,即用样本入样权重来消除模型的设定错误带来的影响。
与基于模型的估计步骤类似,模型辅助推断法首先需要对模型进行假定,而抽样随机特征并不需要在这一步中得到体现。在假定模型后需要对模型进行估计及显著性检验,在系数估计过程中要求将代表抽样随机特征的样本单元权重引入到统计量中,从而对模型假定错误带来的偏差进行修正。最后根据所建的模型及广义回归估计理论对总体信息进行推断。
3. 实证分析
本文实证数据选自我国2012年煤炭企业的总产值、及平均职工人数组成的数据。由于文章采用二阶段整群抽样,因此需要事先对数据进行抽样设计。本文在第一抽样阶段抽取13个地点,第二抽样阶段在选中地点中随机抽取一半企业作为样本单元,不足三个的地点则全部抽取。本文对所抽取的样本进行总体总值的估计,通过比较估计值与真实值间的差距来判断三种估计方法的优劣。
3.1基于设计法实证
基于设计的推断法是以随机化原理为基础,根据抽样设计特征(权数)及数据大小进行总体推断的推断方法。本文所采用的抽样设计方案为二阶段整群抽样,因此对总体信息的推断需要先估计各群的总体总值信息,再以群总体估计值估计总体信息。各群的总体估计结果如表1所示。
表1 群内总体总值估计表
Team |
|
|
|
|
北京区 |
9 |
708832.4 |
1.21173E+12 |
6379491.6 |
浙江区 |
3 |
17781.53 |
6985265405 |
400084.5 |
陕西区 |
7 |
30507.5 |
2.6E+09 |
1067761 |
重庆区 |
4 |
87068.67 |
3.15E+11 |
2612060 |
内蒙古自治区 |
4 |
45797.133 |
3.41E+09 |
1373914 |
河北区 |
5 |
113990 |
2.2E+10 |
4274623 |
河南区 |
12 |
1714238 |
3.6E+13 |
5.1E+07 |
山西区 |
8 |
333047 |
5.6E+11 |
9991408 |
江苏区 |
12 |
100888 |
6.4E+10 |
3026638 |
安徽区 |
6 |
111968.8 |
1.01684E+11 |
3359064 |
从表1可以看出,第一阶段抽取的十个群的规模比较接近,而各省的平均产值只有河南区与安徽区两个偏高。各群的总体总值估计量中,山西区、河南区、河北区的总产值较大。从估计量的方差看,各省的差异较大,重庆区、河南区,两省离差程度较大,其他各省间收入差距相差较小。综合上述分析看,各省之间的煤炭企业总产值结构差别明显。
在得到总体总值的无偏估计后,根据群内方差及群间方差的线性表达来估计总体总值的估计方差,其表达式如下:
其中,为群总值的总体方差,
表示第i群内元素间的总体方差。第一项是一阶整群抽样的方差,第二项是由于子抽样产生的附加方差。根据总体总值无偏估计量和其方差估计量的计算公式,可以得出收入总值的估计结果。估计结果如表2所示,该估计结果是仅仅基于随机化原理及抽样设计特征所做的。
表2 总体总值估计表
|
|
218171662.6 |
3.514E+15 |
然而基于设计的推断方法仅仅考虑了抽样特征,并没有利用到相应的辅助变量,同时所抽取的样本量并不算大,每个群内样本只有十五个,这都将在一定程度上影响估计结果的准确性。
3.2基于模型法实证
基于模型的方法假设估计总体选自一个更大的超总体,认为总体是随机产生的。基于模型方法的推断不依赖于抽样特征,只需要根据抽样数据对超总体进行模型的拟合。基于模型的方法同时适用于小样本的情形,但需要对模型残差进行零均值、同方差等假设。
本文以各省煤炭企业的平均职工人数为分析变量,以企业总产值为自变量进行一元回归建模。通过建模,建模结果如下表所示。
表3 回归系数估计表
非标准化系数 |
t |
Sig. |
||
B |
标准误差 |
|||
(常量) |
2094.939 |
125487.023 |
0.017 |
0.987 |
B |
701.855 |
55.485 |
0.752 |
0.000 |
经过建模,最终模型中仅保留了常数项c及一个自变量。模型截距项及系数的显著性检验结果看,系数B的P值均小于0.05的显著性水平。从模型系数检验看,模型的系数适合所建的回归模型。
根据所建的超总体以及总体总量的广义回归估计模型,可以对平均职工数的总体总值进估计,估计结果如表5所示。
表5 总体总值估计表
Y1 |
Y2 |
Y |
40847737 |
82575071 |
123422808 |
表5即总体总值的估计结果,从表中可以看到总体Y为123422808,Y1代表样本单元总值,其值为40847737,Y2为样本外预测总值,其值为82575071。
3.3模型辅助法实证
模型辅助法是继基于模型推断法与基于设计推断法后又一抽样推断方法。它是在基于模型与基于设计两种推断思想上延伸改进而来的方法,以超总体模型为核心,以抽样特征为辅助,从而建立一个消除模型结构偏差的超总体模型。
与基于模型法类似的是,模型辅助法也需要实现对超总体模型进行假定,但在模型参数估计阶段需要引入抽样特征。本文在利用模型辅助法进行建模时的结果如表6所示。
表6 系数估计表
B0 |
B1 |
-642056 |
1363.223 |
表6是基于模型辅助法的推断结果。参数的估计值分别为1363.223,-642056,由于模型参数法增加了权数,因此其估计结果与基于模型的估计结果有所不同。
表7 总体总值估计表
Y1 |
Y2 |
Y |
40847737 |
100943262 |
141790999 |
表7为基于模型辅助法的总体总值的估计结果,从表中可以看到总体Y为141790999,Y1代表样本单元总值,其值为40847737,Y2为样本外预测总值,其值为100943262。将估计结果与基于模型的总体总值估计结果看,模型辅助法的总体总值估计值略微大于基于模型的推断方法所估计得结果。
表8 估计结果汇总表
所建模型 |
基于设计 |
基于模型 |
模型辅助法 |
总体总值 |
218171662.6 |
123422808 |
141790999 |
114408069 |
表8是三种方法下的估计值与总体总值比较表。从结果看,基于模型的估计结果与总体总值最为接近,估计精度最高;模型辅助法的总体总值估计值略微高于基于模型的估计方法,估计精度相对更低,两种方法间的差别主要受抽样误差的影响。从本例中,超总体模型模拟效果相对较好,因此考虑使用基于模型的推断方法与模型辅助法进行总体估计。
4.研究结论
本文基于我国煤炭企业的相关数据对三种估计方法进行实证分析,可以得出以下结论。
首先,基于设计法在大样本下估计准确度较高,在小样本下,基于模型的估计最准确,其次是模型辅助法。
其次,权重的引入理论上能提高估计准确度,但估计误差会增大。从基于设计的估计结果看,总体总值的估计量方差比较大。这表明引入权重的同时,估计量方差也会变大。
最后,模型辅助法的预测误差既受抽样误差的影想,也受模型选择的影响。只有在选择合适的模型与合适的抽样方案两个前提下,才能保证模型辅助法具有较高的估计精度。
扫一扫
在手机打开当前页