城市住户调查数据误差修正研究
一、目的及意义
中国城市住户调查是以城镇居民家庭为研究对象,为搜集其家庭收支、居住、生活质量、储蓄、借贷等资料而组成的调查的总称。它是依据概率论和中心极限定理,按照随机原则,运用抽样方法,随机抽选足够数量的城市居民的代表户进行调查,从而推断城市居民总体各种情况的一项调查活动。因此,城市住户调查是运用抽样方法,调查城市居民户总体情况的一项重要的调查。抽样调查在理论和实践中都被证明是一种科学有效的调查方式。然而,任何一项调查都难免出现这样那样的误差,而这些误差其严重性和所能克服或纠正的程度又各不相同。在住户调查数据中就存在抽样误差和非抽样误差。抽样误差在调查前可以通过调查样本数量和总体中各单位之间的差异程度进行计算,将误差控制在有效范围之内,而资料收集、编码、汇总等非抽样误差却不能用相同的方法进行有效控制。这些误差可能是偶然性的,也可能是系统性的。偶然性误差(随机误差),只要样本数目足够大,往往能互相抵消掉,对整体影响不大;而系统性误差则是型态的,不能互相抵消掉。对于这类具有型态的误差,人们试图通过数据评估进行验证,从计量、控制方面加以纠正。然而,在住户调查实践中,我们发现这类误差很难计量或者无法修正。有的数据误差修正只是零散体现在评估报告或分析说明中,没有系统性。另一方面,理论上各种致力于找出测定数据误差大小的方法和技术(主要指定量研究),在实践中作用不大,因为造成数据失实的原因主要是调查人员的主观因素所致。因此,找到正确的数据误差修正方法,是当前城市住户调查理论和实践迫切需要解决的问题。
城市住户调查的服务对象除了各级党政领导和有关部门外,还包括社会各界和公众。要适应形势发展需要并做好这项工作,调查数据的质量及其准确程度是确保服务顺利开展的重要基础。一方面,由于城市住户调查发挥统计工作的服务、咨询、监督职能,受到社会各界的普遍关注;另一方面,也逐渐暴露出一些问题和不足之处,即调查对象有遗漏、样本轮换周期长、调查户配合程度下降、调查样本分布出现偏差、调查内容更新不及时、调查方式单一、数据处理方法有待改进等。这些问题和不足之处在数据质量上的主要表现是:数据误差加大,分地区的住户数据代表性不强,收入差距和消费水平无法如实反映,难以满足用户需要。因此,必须对调查结果进行数据修正。在实践中,简单地对调查结果进行数据误差修正,是治标不治本的做法。城市住户调查数据误差的修正研究仅仅停留在这一步是不够的,必须充分把握住户调查数据误差的结构和特点,判断原始资料中是否存在系统性误差,即判断原始资料是否存在质量问题。如确实存在系统性误差,则应对照调查方案找出有质量问题的原因。因为城市住户调查数据质量始终受到住户调查制度、调查方法、组织实施情况及抽样误差等因素的影响。本文力图从理论与实践相结合的高度,利用抽样原理和调查技能,进一步探寻城市住户调查各阶段误差修正的有效办法;本文研究的最初目的,曾试图充分利用有关数据质量评估的研究成果,借此获得关于住户调查误差的经验数据,通过建立一套系统的修正表,将以往理论研究中误差计算和数据修正应用脱节的问题进行弥补,使其具有较强的可操作性和应用价值。通过研究,我们发现,目前住户数据误差的修正,从源头抓起,即对调查方案进行修正,对于提高数据质量是十分必要的。
从现实角度看,中国住户调查目前正开展与加拿大合作项目活动,2004年,城市住户调查方案将进行重大改革,本文想通过研究提供一定应用参考,可为住户调查改革借鉴。
二、城市住户调查在数据误差控制和修正研究方面的实践
数据质量问题,各级统计部门非常重视,同时也是统计界理论研究探讨的"热点"问题之一,但研究的重点主要放在完善工作程序方面。这些确实是提高质量的重要方面,有的措施和手段也是非常有效的。了解这些工作可以使我们下一步研究方向更加明确。
(一)分析误差产生的来源,并在降低不回答率方面采取措施
1、加强对调查者职业道德、业务技能等方面的培训,提高其综合素质。通过运用访谈技巧,增加调查员对调查户的感情投资,以取得调查户的配合。
2、立足于探索科学管理办法和手段,使调查人员的工作规范化和科学化,进而达到控制误差的目的。主要做法包括:加强基础工作建设,确保调查网点分布的合理性和调查数据的准确性。
3、改进调查方法。一是深入宣传调查目的和作用,宣传《统计法》,消除调查对象的顾虑,增强记录的真实性。二是加强对被调查者的辅导工作,提高其记帐的熟练程度,减少由于对指标口径、统计范围的错误理解而造成的错记、漏记等。三是根据项目频率不同,选择不同调查周期。四是缩短调查期限,我国城市住户调查从1988年起在部分城市实行了样本轮换制度,又于1990年在全国全面推行,轮换率为三分之一,轮换时间为一年。(显然,调查周期偏长)。
(二)开展数据质量评估
除了对原始数据进行审核,组织质量检查外,近几年,数据质量评估成为确保城市住户调查数据准确性的一个重要手段。所谓数据质量评估,就是通过计算误差产生的来源,对城市居民抽样调查资料的可靠性进行验证、评估,并及时加以修正。通常住户调查主要是利用外部统计数据对收入和支出数据的正确性进行评估,虽然外部的统计数据有不少问题, 但用于评估、比较时,仍有一定的参考价值。这些外部统计数据主要有:
·GDP的增长率:用于比较居民收入和消费支出的增长是否与经济增长相适应。
·金融部门的工资性支出的增长率:用于分析居民收入的增长速度是否正确。
·统计部门的社会商品零售额:尽管两者在统计口径上有一定差异,但在对消费支出数据进行评估时,只能参照该指标。可以用该指标的人均水平和增长率对消费支出进行评估验证。
·人口普查资料:住户调查是总体的一个缩影,一个有代表性的住户调查样本,应在人口构成上对总体有较好的代表性。如年龄构成、性别构成、职业构成、行业构成、文化程度构成等。从与总体人口特征的比较中,评估调查样本的代表性。
在城市住户调查中,对于综合数据进行修正方法主要有:利用加权权数修正调查资料,其作法是目前住户调查中采用比较普遍的方法;利用不成功访问偏差进行修正研究。在我国开展的住户调查中,正逐步重视搜集不成功访问的一些简单信息,借此可以评估修正不成功访问所产生的误差。2000年总队对1999年居民家庭一次性调查的资料首次进行了较全面的误差来源的定量评估(见P18《1999年城镇居民家庭基本情况数据质量评估报告》)。
(三)开展调查方案修正的研究
住户调查开展以来,调查方案修正较少,变动较频繁的是指标修订。1991年的指标修订的目的主要是考虑与联合国保持一致,2000年的修订,考虑到减轻调查员和调查户的负担,提高调查配合率从而提高数据质量。其次是调查范围的修正,由开始的职工家庭扩展到非农业居民家庭,2002年的住户调查方案中包括城区范围内的城市居民和农民。目前,中加合作项目对中国住户调查方案进行全面的研究,针对调查配合率下降的现象,对长期保持单一的数据收集方式进行改革,将采用电话调查和问卷调查、日记账方式相结合。
三、误差种类的结构和特点
我们已经知道,城市住户调查属于抽样调查,其数据存在着影响精度的两类误差:抽样误差和非抽样误差。最近的一些数据误差的研究者一般都认为抽样误差不可避免,但利用合适的抽样方法能减少抽样误差,并提高估计量的精度。因此,在数据质量控制方面,往往忽视抽样误差。但是,我们从1999年全国住户一次性调查的评估结果来看,抽样误差和非抽样误差都有扩大趋势,总队利用1999年大样本调查资料,对目前全国226个市县点的分布及数据质量做了全面的分析研究。总体结论是:针对反映城镇居民家庭生活水平的最主要指标--收入而言,修正值比调查值高5-10%,其中调查城镇的不均衡分布使调查值上升5%左右;不成功访问因素,特别是拒绝调查情况,由于内部高低收入相抵,对调查收入无大影响;回答偏差使得调查收入下降10-15%;全国城镇居民收入抽样误差在99%的置信度下,相对误差不超过1%;多数调查市县在95%的置信度下,相对误差不能保证在3%以内(方案要求控制在3%以内)。下面分别阐述其特点。
(一)抽样误差及表现形式
抽样误差是指仅根据对总体的一部分而不是全部的调查来估计总体征所引起的误差。抽样误差的大小取决于下列因素:样本量;总体大小;总体指标的变异程度;抽样设计;估计方法。目前住户调查抽样误差增大有两种表现形式。表现一,抽样误差计算的水份很大。因为总体有偏估计量中未包括不回答部分。另一方面在实际调查过程中,任意更换样本,或不遵守随机原则确定样本,破坏样本的随机性,那样用样本推算总体的结果必然带有虚假性。这往往容易引起人们对抽样误差的忽视。表现二,市县抽样误差超过控制范围,代表性不强。其原因主要包括:1. 样本偏少; 2.没有严格遵守随机抽样原则。
(二)非抽样误差的分类
与抽样误差相比,由于非抽样误差处理起来比较复杂,拒绝回答和回答不真实都会产生非抽样误差。当我们调查一些涉及个人隐私、收入等敏感性问题时,被调查者往往会拒绝回答,或给出虚假答案。同时抽样框的设计、调查表的设计、数据收集方式和数据处理都可能产生非抽样误差,一般可以分为四大类:抽样框选择上的误差;2、调查表的设计误差;3、回答误差;4、数据处理中的误差。
在这四大类误差中,突出表现在回答误差上,但抽样框选择上的误差和调查表设计误差是不回答率较高主要原因。数据处理中的误差由于计算机的普遍使用,控制的可操作性较强,本文不再作讨论。
四、误差的修正
住户调查开展以来,国家共抽选了146个城市,80个县城2万5千户经常性调查户数进行调查,其范围分布广,样本量大,给调查的组织、管理和协调工作带来很大困难。我国应用抽样方法开展大型调查经验不足,设计、组织大规模调查的实施和管理能力有限,调查者的专业素质还不高,经费困难导致城调系统数据误差修正研究较少,方法单一。在实际工作中对基层调查单位上报的原始数据进行检查和审核、评估,这是提高统计数据质量、减少误差的重要措施之一。同时,加强对调查方案的研究,通过对住户调查方案进行修正,加强对调查全过程的科学管理,把各阶段可能出现的误差降低到最低限度,这对于提高调查结果的精度具有非常重要的意义。
(一)抽样误差的控制与修正
1、增加调查样本量。抽样调查是建立在概率论和大数定律基础上的。因此在实际工作中,抽样调查抽取的单位要足够多,以提高样本的代表性。国家调查点从80年代确定下来后,基本上没有调整更新。1985年,全国共有城市324个,人口2.1 亿,到1998年底,全国已有城市668个,人口5.3亿,城市个数及城市人口数增长一倍多。湖南1983年底的城镇人口为794.46万人,1999年底达1915.92万人,增加了1.4倍。新增城市人口有一部分未能包括在调查抽样框中。调查结果对总体缺乏全面的代表性。
从抽样原理看,"反映总体值所需的样本数,不仅依总体的大小而定,而且依总体内该变数的异质性程度而定。对具有同等异质性的总体来说,按一般原则,总体越大,则所需的样本也越大。可是,对具有同等数量的总体来说,一个数上的异质性越大,则所需的样本也越大"。①(《现代社会研究方法》)由于80年代初城市数量相对少,且城市规模不大,不同地区之间,同一地区不同城镇居民之间,生活水平差异不大,即总体样本差异不大,其样本量有较高的代表性。但时隔17年,我省国民经济和居民生活已发生了巨大的变化。不同地区间和同一地区的城镇居民生活水平差距呈扩大趋势,如市与市的差异。根据抽样调查的原理,随着调查总体及其差异程度的扩大,必须增加抽样调查网点和样本量,才能保证调查资料的代表性。但国家的住户调查仍维持原有的调查点和样本量,样本量相应偏小,难免使抽样误差扩大。从世界各国和地区情况看,开展此项调查工作的国家和地区的抽样比率一般在0.3%左右。如香港600多万居民抽选9000户调查样本,抽样比率为0.3%;澳大利来抽样比率高达0.5%。湖南现有557万户市镇居民,抽样比率为0.018%。显然,这样低人比率无法有效控制抽样误差。为了增强地区调查样本代表性,应该不同程度地增加调查市(县)和调查户数量,目前的解决办法是根据国家城调总队方案要求,按照地理位置和人口规模将城市划分为若干类,在每类中,按各城市就业者年人均工资从高到低排队,依次计算各城市常住人口累计数,按照人口比例概率抽选所需数量的县城。但问题是由于地方建点经费由地方解决,一些市县有困难,这样就面临着一方面急需增加网点和样本,另一方面又经费不足人矛盾。因此,除了国家增加一部分外,省里面可以通过不固定网点的方式,真正有效解决增加样本量的矛盾,增加调查样本量。
(1)组织形式:不固定调查网点机构,不增加编制,对抽样调查点,由省城调队统一管理和组织,采取聘请调查员和督导的方式完成。
(2)数据采集方式:通过问卷调查的形式,每年开展一次回忆调查。
(3)数据处理。比照同类城市进行按平均数法、比例法、速度法推算不同年度、月份的数据,按人口加权计算地区资料。
2、采用抽选小区与抽选单位相结合的抽样方法。由于我们国家的社区建设不完善,地理小区无法严格界定,面访调查难度大,因此,根据我国实际,应与抽选单位相结合。由于抽选单位是采用分层抽样的方法,这样更有利于提高整个总体指标估计值的精度(控制抽样误差提高精度,控制抽样和非抽样误差提高准确性)。同时,本文主张两者相结合抽样是基于以下考虑:
第一,总体特征适合分层。在考虑决定使用哪种抽样设计时,统计学家认为,要考虑的问题包括"抽样框是否有能用作分层(如:年龄、性别、省份、收入等等)或能用作大小度量(农场规模、家庭规模)等的辅助信息?如有,而且这些变量与主要调查变量相关,则考虑使用分层抽样。"城镇居民家庭总体的各个不同部分的特征有显著的不同,适合分单位。一是行业收入差别加大;二是单位的工资、人数等的辅助信息也容易得到;三是住房与行业、单位、收入的相关程度很高。这和计划经济时期住房属于职工福利有关。这一特征也区别于其它市场经济的国家。
第二,可以发挥政府调查的优势。分层抽单位,其样本将不仅保证被抽样的总体中所有等级的代表性,同时各市县城调队便于开展工作,可以依靠地方政府和工会配合,这是有别于其它市场调查机构的优势。在调查访谈时节省时间和费用的可能性更大。否则,过于分散,调查费用高,调查员访户难度很大。。
第三,坚持抽样原则。抽样方法设计的误差,主要是在抽样设计和样本的抽取过程中保证随机原则的实现。破坏了随机性原则,将破坏抽样调查的基础,这将是最大的系统性误差。为了避免在这一环节上出现系统性误差,现行城市住户调查抽样方案规定:"调查户的抽选工作应严格按照随机原则在城(镇)区居民委员会行政管理区域内的全体住户中进行。对抽中家庭,非不可抗拒因素不得轻易换户。"但在实际抽样开户中,在抽选调查户或进行样本轮换时,有的调查点为了便于和调查单位配合,多偏向于选效益好的单位职工户(这就使调查的收支偏高),往往跳出原居委会的抽样框,在单位中抽选。如某市进行1/3的样本轮换,其中50%的在各单位中抽选,这种方式没有科学根据,有很大的主观性和任意性。为此,本文认为,在抽样调查中应避免破坏抽样的随机性。关键在于调查组织者要用一定的法律或行政手段督促被抽到的样本接受调查,不任意更换样本。抽单位正是因为调查户所在工作单位可以协助我们搞好宣传工作,同时抽选部分非单位居民,保证各类人员的均匀分布,更具有代表性。在具体实施抽样的方法上,可分三步进行:
第一步,根据现有方案抽选初级单位即抽选居委会或小区。
第二步,抽选调查单位。首先,收集住单位住房(即集中居住,和所有权没有关系)的住户数,计算其在所有住户中的比例,以此分配抽选单位的住户数。其次,把应抽选的户数按行业职工人数比例分摊;再确定每个调查单位的调查人数,计算出应抽选的调查单位数和抽选距离;最后将各单位按职工年平均工资由高到低排队,等距抽选调查单位。
第三步,在抽选的小区(或居委会)中找到相对应的单位。其他的小区或单位以外的户数在非单位住户中抽选。
(二)非抽样误差的修正内容及方法
1、抽样框的误差及其控制。
"在抽样之前,总体必须划分称为抽样总体的各部分。这些单位必须互不重迭并且能合成总体。将这些抽样单位编制成抽样单位一览表(名单),这个名单就是抽样框。"(摘自《抽样框技术》)。抽样框通常含有下类误差:
(1) 不完整,即被研究的总体的各个单位没有完全包括在抽样框中,也就是抽样框没有穷尽。显然这会产生偏差。从研究对象来看,我们应该意识到,抽样总体(是指我们利用抽样框能看得见的总体)有时会和目标总体(是指我们要用抽样方法进行调查的总体,即是调查对象)不大一致,因此会产生非抽样误差(即偏差) 如图所示:(图略)
在情况A,抽样框可能因为不完全而小于目标总体;这时偏差产生。
在情况B,抽样框不是小于目标总体,而是偏离目标总体,这时偏差的影响也就是非抽样误差的影响就更大了。在住户调查中,国家一级抽样框,一般代表性较强,但国家调查网点不能全面提供分地、市、县的数据,因此,地市一级代表性较差,湖南有7个地市没有国家点,因此,不能反映分地市的居民收入及消费,影响为地方服务。
(2) 抽样框模糊不清难以辨认。一般指记录上的错误。
(3) 有未知的重复部分。
为了避免上述误差的产生,选择抽样框时应遵循下列基本原则:1、抽样框必须尽可能完整无遗;2、抽样框应相对稳定,如不受目标总体内各个单位变化的影响,特别是不受地址变化和分类的影响;3、更重要地是,抽样框应非常容易而耗资少地更新。
抽样框的作用主要是"提供一条辨别和联系调查总体单元的有效途径。"②(《调查技能教程》)抽样框一般包括两种类型,名录框和区域框。一个名录框主要是所有总体单元的实际的或者概念的名录清单。区域框是其单元由地理区域构成的一种特殊的名录框,也称地域框。我国城市住户调查的目标总体是每一个被抽中调查市县的所有居民家庭,且要求抽选的样本遍布每个调查市县的各个区域。诚然,组织人力建立一个包括该调查市县所有居民家庭的抽样框,是一件耗资费力的事,但是,由于这项工作要长期开展,并且目标总体是长期固定的,因此,有必要建立一套完善的抽样框。我国现在对住户调查的调查对象范围进行了修订,从2002年起,城市住户调查对象由过去的全国非农业户居民家庭改为全国城市市区和县城关镇区的居民委员会住户。也就是由原来的按特征定义改为国际较通用的按地域定义调查对象。按住宅门牌抽选调查户,将城市内的暂住户纳入调查范围,弥补了过去城乡住户调查对流动人口的漏统现象。按地域抽样,其优点是:抽样框和抽样更稳定,调查户迁移后有新住户迁入,不需要跟踪人,调查员也容易找。然而,调查范围确定的再合理,没有建立抽样数据库,其优点仍然无法体现,因此。有必要借鉴国外的作法,着手建立一个地理信息系统,即抽样数据库。而且,计算机的普遍使用为建立一套完善的抽样数据库增加了可行性。
首先,以现有人口普查资料为主,并搜集其它有关资料,根据住户资料的不同用户通过地理信息的框架,组成空间数据框架。在加拿大,框架中包括公认的路名、地址登记、邮政编码、不标准的地区、经济区域、行政区域、分类层、主要道路、参考特征、水文地理等要素。
其次,在绘制的地图中,包括街区、道路、河流等其他自然、行政、经济或界限的地理特征;住处的计数、道路的方向;列入调查清单的住户的描绘,语言、外形、年龄、性别、工作单位等。
然后,建立维护系统,对抽样框进行更新。对拆迁的街道进行删除,加上新街道、列出新建筑。每6个月和新调查员上岗时定期进行核实。
2、无回答误差及其修正
无回答误差在非抽样误差中占的比重最大。按类型可分为三大类:没有回答;不适当回答;回答前后不一致。为什么无回答是个值得研究的问题呢?有两个基本原因:无回答使样本含量减少,总误差加大;更重要的是,无回答会从根本上毁掉估计值,因为无回答会引入很大的偏差。在我国城市住户调查中,不回答户尤其是拒绝回答户通常与"有回答"部分有完全不同的均值(因为拒绝调查的户一般是高收入者)。这个偏差在总体均值的有偏估计量中并未包括。目前,我国一次性调查中的拒绝记帐的无回答率为10%-15%(1999年)。加拿大的不回答率为26.8%(其中高收入者达40.8%)。从回忆调查的形式看,我们的无回答率低于加拿大,但我们的经常性调查户的开户拒绝率达50%-60%(长沙市)。对无回答率的处理,一般有两种方法:
方法一:膨胀系数法。用增加样本含量N来"补偿无回答"。这一方法首先要求我们取得回答率的经验数据,不同调查的数据收集方式,这一经验值是不一样的。具体作法是:如果无回答率被估计为Q,那么样本含量应由原来的m加大为N:
如样本含量根据精度要求计算是6000,回答率是65%,即是说无回答率是35%,那么膨胀后的样本含量应为:
我们应该意识到使用N实际上只可降低抽样误差,而不能解决估计中的偏差即非抽样误差。因为这些愿意回答的被调查者,其某些特征值上(特别是在有关调查所要估计推算的特征值上)恰恰不同于这些无回答的被调查者。显然,样本的代表性不是很理想。
方法二:从整体上消除无回答的影响包括两方面的工作,一是采取一些降低无回答率的措施;二是减少无回答对估计值的影响。第一个方面这里不一一作详细研究,一般包括:
1)采取一些降低无回答率的措施。我们知道,争取被调查者的配合不是一件容易的事,若不采取一些必要的措施,良好的合作不会自动形成。这些措施是:
a) 使公众留意调查;
b) 训练统计人员及调查员;
c) 再次登门及提醒;
d)对无回答抽选子样本。如,我们想知道个体户在所有人中所占的百分比,通过邮寄抽了一个n=10000的样,将调查表寄给这一万人,7000表填了表并寄回,这时无回答的人是3000。
下一步如果时间允许,再发出3000封提醒的信和调查表,假定在这样措施采取后,有1000张填好表寄了回来,这时共有8000回答者(相应地回答率是0.8)和2000无回答者(无回答率是0.2)。
下一步我们可以做的是从2000个无回答中,简单随机地地抽选一个n=400的子样本,并对其进行访问或调查,假定400个人都与调查员合作,这时最终调查结果,P(即个体户的百分比)可用以下估计式求得:
其中,P1是使用从邮寄调查表得到的数据来估算的,而P2是用从访问调查中收集的数据估算的。我们可以看到,如果不进行访问子样本的话,P1就是最终结果了。
2)减少无回答的影响。这些措施包括:根据现有资料进行估计然后对结果进行调整。这里的两类措施用以解决当估计参量是平均值Y时无回答的影响:
比率估计
在有辅助资料存在,可以用比率估计和平均值估计求总体总值时,用比率估计更有效。更详细地说,在比率估计法中,样本中每个单位求得与yi有关的辅助变量xi。xi的总体总值是已知的。实际上,xi通常是先前一次普查中的数。使用比率估计的目的是利用yi与xi之间的相关来提高精确度。为了说明问题,让我们来比较一下比率估计和平均值估计求总体总值的公式并用实例说明:
对于现在住户调查存在的无回答误差的修正,用以上两种方法是远远不够的,我们认为根本办法是数据收集方式和目标总体定义的修正。为此,以下我们专门加以阐述。
3、数据收集方式和目标总体定义的修正
(1)数据采集方式的选择。我国城市住户调查反映的收入、消费一般是通过经常性调查获得。现行的中国住户经常性调查以日记帐为数据收集的主要方法,数据搜集周期为每月一次,由被调查户记录本户一个月中的全部收入和支出数据,每月由调查员上门收取日记帐,然后进行数据处理。在采用日记帐收集住户收支数据的同时,还采用了问卷调查方式,收入辅助信息,家庭成员的人口统计基本情况在年初对抽中样本进行一次调查。年末,对每一调查户进行一次问卷调查,调查的主要内容为家庭住房情况,家庭成员基本情况的核实、社区环境等辅助信息。城市住户调查按月进行数据处理并上报上级调查队。这种调查方法的优点是:调查组织简单,成本低,工作量轻,数据质量有较高的准确性,推算也比较简单。但实际操作中,优势逐渐消失。一是上户难度大,特别是住户门难进;二是调查成本增高。现在国家给调查户的费用低,但地方包括单位都不同程度给以补贴,调查户实际的记帐补贴有的比国家给的高5-6倍,每月记帐的记账费明显高于一次性回忆调查。三是数据质量容易出现系统性偏差。
因此,这种调查方式必须加快改革。办法是根据我国居民收入变化的特点,以多种方式进行调查。比如私营业主的收入消费应单独进行调查。以湖南就业人员的比重为例,私营业主、个体经营者和个体从业人员在全面调查中占24.7%(2001年《统计年鉴》),从调查户的就业构成看,就业者中仍以国有为主(占83.2%),住户抽样调查个体经营者和个体从业人员只有5.2%。而我们目前调查资料,真正的高收入户数据基本没有调查到,一是调查户不愿意配合。二是不如实记帐。个体业主不愿如实填报自己的收入,因此,2000年质量检查中,我们发现省会城市长沙和邵阳市的最高收入户都是大学教授。不少个体经营者反映,每个月只能估一个收入数据,不可能记准确。三是调查时期不合理。私营企业主他们的收入往往不是以月核算的,客观上不知道每月的收入。其收入应以年为单位进行调查。四是高收入户的收支对平均水平影响较大(影响总体分布)。因此,根据不同调查对象,采用不同的调查方法、不同的样本规模开展调查,是提高调查质量、减少误差的好办法。
(2)目标总体定义的修正。目标总体定义的修正即提高目标量设计的质量,"许多统计工作的目的就是确定这个值在整个总体中普遍存在的概率。换句话说,就是确定样本值能较好地估计真正的总体值的程度。""指标设计的质量关系到指标测度的效果,当某一指标没能准确的表达出所要测定的目的,或虽表达准确但难以实现时,则调查结果很可能出现偏误。"③(《抽样技术》)因此,对于误差偏大的指标,应重新定义,规定调查范围。这实际上是一种处理无回答的办法。因为处理无回答的最简单的办法就是忽略它。对定义进行修正旨在将无回答的内容从定义包括范围中剔除。居民消费支出是一个非常重要的指标,其主要用途,一是为满足国民帐户核算的需要,二是计算物价权数;三是分析居民消费结构。我们现在的住户调查中"消费支出"的定义指调查户用于满足家庭日常消费需要的全部支出,这里的满足家庭需要是指家庭人员消费。包括食品、衣着、家庭设备用品及服务、医疗保健、交通和通信、娱乐教育文化服务、居住、杂项商品和服务等八大类。构成按用途分类。人们常常发现居民的消费加上政府消费这块永远和社会零售这块的数据有很大差额。2000年湖南城镇居民和农村居民的消费分别增长8.7%和0.7%,政府消费增长12.3%,社会商品零售则增长11%。2001年1-10月城镇居民消费仅增长5.9%,社会消费品零售总额增长10.5%。根据调查资料,居民消费总量偏小,增幅也偏低。
我们知道影响居民消费的因素主要有家庭人口、组织形式等。在记帐资料中,消费漏记的因素。其一是人员的漏记对数据质量的影响很大(见P17的数据评估结果)。其二是消费方式的变化,使消费漏记增加。尹世杰教授认为,中国多数家庭,实际上存在两种消费方式,一是家庭内部的消费方式,通常比较简单,比较节省,它同"崇俭"的传统文化和影响有关;另一种是大庭广众或社会交往中的消费方式,其花费超过前一种,它同人情至上的传统文化有关。消费方式的变化也受西方文化的影响,家庭的功能和作用在逐步淡化。随着生产、教育的一些功能的逐步退出,在家庭消费部分越来越少。其三是消费结构的变化。进入90年代以来,城市居民收入迅速增长,生活水平明显改善,整体上已由温饱迈入小康阶段,少数家庭开始向富裕迈进。以前在居民生活中占主导地位的吃穿比重开始下降,交通通讯、教育文化娱乐、旅游、居住等服务性消费迅速崛起。调查资料显示,1992年城市居民消费中,吃穿分别占49%和14%,到2000年则降为39%和10%。顺应这一变化特点,国家今年对吃穿调查指标相应进行精简。这在一定程度上减轻了记帐户的难度,但这种改革远远不够,由于我们记帐对象决定了资料反映的内容,因此,还应根据消费结构、消费方式的变化和记帐的漏记情况,调整指标口径和计算方法,一种方法可以将"居民消费支出"修正为"居民家庭消费支出"。因为现行指标设计反映居民消费支出包括居民的家庭消费和在外消费,但是实际能够调查到的只是反映居民集中在家庭的消费。另一种方法是按人搜集消费资料有利于深入分析研究。住户调查从家庭角度了解消费情况,不便于发现问题的实质,在家庭中分开记帐的也寥寥无几,对青年单独开展调查。
除上述情况外,从湖南城调队数据评估情况看,大龄青年的消费和收入漏记成份很大。在1992年的质量检查中,1000户调查户有52位大龄青年算作搭餐人口,占5.2%,收入中只记了少许搭餐费。2001年在质量检查中发现,某市50户调查户中只有两户大龄青年计算了家庭人口。他们的漏统,使家庭人口数低于人口普查数。还有的虽然算作家庭人口,也只记了基本工资,消费均未入账,对数据质量影响较大。因为这部分人是当今消费的主流群体,他们大都追求高质流行消费,对新型消费品、新型消费项目和消费方式怀有强烈的需求冲动。其次,他们对交通通信、旅游、餐馆等服务具有超常规需求。因此,居民在外的消费情况应通过问卷调查或其他形式加以了解,以反映他们的消费去向和来源。
对于住户调查抽样误差的修正,国外一些国家的理论和研究及抽样理论和技术日臻完善,日趋成熟,为住户调查运用抽样调查提供了参考。我们可以学习国外市场经济体制下抽样调查的经验,拓宽我们的思路,使我们的观念真正能适应市场体制的变化,不断探索和完善市场经济体制下我们城市住户调查的理论、技巧和工作新方法。
附:1999年城镇居民家庭基本情况调查数据质量评估报告(部分内容)
调查误差主要来自以下四个方面:
(一) 调查城市与全国城市分布偏差
受客观条件限制,这次调查延用了80年代中期抽选的调查市,它对现在全国城市总体情况,特别是对90年代以来新成立的城市,以及原有城市新扩展的城区情况,缺乏一定的代表性。1985年,全国共有城市324个,人口2.1 亿,到1998年底,全国已有城市668个,人口5.3亿,城市个数及城市人口数增长近一倍。新增城市人口有一部分未能包括在调查抽样框中。调查结果对总体缺乏全面的代表性。
从全国分地区情况看,城市样本构成偏重于北部地区。华北、东北和西北地区调查样本占总样本的比例分别为16.66%、15.69%和12.30%,比其实际应占比例分别多5.83 、3.14和7.64个百分点;华东、中南地区调查样本占总样本比例分别为23.76%、19.42%,比其实际应占比例分别减少8.99、8.56个百分点。全国调查样本由南部地区向北部地区相对偏移17.55%。
从城市规模看,样本构成偏重于特大及中小城市。分析显示,大城市调查样本占总样本比例为23.42%,比其实际应占比例低11.48个百分点。特大城市和中等城市样本所占比例比其实际应占比例高8.38和3.03个百分点。城市规模构成相对偏移11.48%。
从收入水平看,样本构成偏重于高收入城市。将所有城市按职工年人均工资五等份分组,调查样本量在这5组之间的分布也不均匀。最低两组样本所占比例,比其实际应占比例少近20个百分点,中等以上收入组样本所占比例,比其实际应占比例多了12.60、3.85和3.39个百分点。调查样本由低收入组向高收入组偏移19.84%。
调查样本构成与总体构成比较表
类别 | 总体人口构成 | 样本人口构成 | 样本与总体差 |
1、按地区分类 | % | % | |
华北 | 10.83 | 16.66 | 5.83 |
东北 | 12.55 | 15.69 | 3.14 |
华东 | 32.75 | 23.76 | -8.99 |
中南 | 27.98 | 19.42 | -8.56 |
西南 | 11.21 | 12.14 | 0.93 |
西北 | 4.66 | 12.3 | 7.64 |
合计 | 100 | 100 | 内偏差17.55 |
2、按城市规模分类 | | | |
小城市 | 0.94 | 1.01 | 0.07 |
中等城市 | 13.69 | 16.72 | 3.03 |
大城市 | 34.9 | 23.42 | -11.48 |
特大城市 | 50.45 | 58.83 | 8.38 |
合计 | 100 | 100 | 内偏差11.48 |
3、按工资水平分类 | | | |
小于3000元 | 0.74 | 0.48 | -0.26 |
3000-6000元 | 38.55 | 18.97 | -19.58 |
6000-9000元 | 44.83 | 57.43 | 12.6 |
9000-12000元 | 9.98 | 13.83 | 3.85 |
大于12000元 | 5.87 | 9.26 | 3.39 |
合计 | 100 | 100 | 内偏差19.84 |
由于调查样本在不同地区、不同规模城市以及不同收入水平组之间分布不均匀,造成调查结果出现偏差,这种偏差到底有多大? 我们将调查结果按总体实际构成进行修正来做测算。具体做法是:将所有城市调查样本按地区、城市规模和职工平均工资水平分层,计算每一层的样本平均收入、住房面积和家庭规模,再以各层的总人数为权数,加权汇总全国城镇居民收入、住房面积和家庭规模平均值。1999年8月城镇居民人均收入为442元,比修正值高5.24%;城镇住户住房使用面积为52平方米,比修正值低4%;城镇住户家庭人口规模为3.19人,比修正值低0.32%。分析显示,居民人均收入和住户住房面积代表性要低于家庭规模的代表性。
按城镇分布情况修正1999年8月城镇居民收入、住房及家庭规模调查值
目标变量 | 调查值 | 修正值 | 调查值与修正值对比变化(%) |
城镇居民人均收入(元) | 442 | 420 | +5.24 |
城镇住户住房使用面积(平米) | 52 | 54 | -4.00 |
城镇住户家庭规模(人) | 3.18 | 3.19 | -0.32 |
(二) 调查抽样误差
抽样调查是按照随机原则,从总体中选取一部分单位,进行调查观察,并运用数理统计的原理和方法,在实际观察值的基础上,对总体作出数量上的估计推断。既然抽样调查是用部分单位调查结果来代表总体,因而总存在一定的随机抽样误差。1999年城镇居民家庭基本情况是按照分层、多阶段、人口比例方法抽选样本,也会产生抽样误差。根据抽样理论,近似计算几个主要目标变量的抽样误差结果如下:
1999年8月城镇居民人均收入、住房及家庭规模抽样误差表
目标变量 | 均值 | 标准抽样误差 | 变异系数 | 99%的置信水平下的相对误差 |
城镇居民人均收入(元) | 442 | 1.86 | 0.42% | 1.2% |
城镇住户住房使用面积(平方米) | 52 | 0.104 | 0.20% | 0.6% |
城镇住户家庭规模(人) | 3.18 | 0.003 | 0.09% | 0.3% |
根据上表结果计算三个主要目标变量估计值的置信区间。1999年8月份城镇居民人均收入为442元,抽样标准误差为1.86,在99%的置信水平下,置信区间为(437元,447元)。也就是说,在不考虑非抽样误差的情况下,我们以99%的可能性断定:1999年8月份城镇居民人均收入在437-447元之间。同样,我们也以99%的可能性断定1999年8月城镇住户住房面积和家庭规模分别在51.7-52.3平方米之间和3.17-3.19人之间。
分地区看,多数调查市县的居民收入估计值变异系数(抽样标准误与均值之比)在5-10%之间。换句话说,就是多数调查市县的收入估计值在95%的置信水平下,相对误差会在10-20%之间,这与方案设计要求相对误差在3%以内有较大的差距。主要原因是这次调查的收入报告期是8月1日-31日,时间太短,对于非月薪制的收入者代表性差,有些人在报告期收入为0,而另一些人则得到数个月甚至一年的收入,造成个体收入变差过大,从而降低了样本代表性。各调查市县的居民住房面积、家庭人口规模等估计值代表性基本上符合方案设计要求。
(三)不成功访问偏差
这次调查全国共访问了170048户,回收有效问卷147911份,不成功访问22137户,不成功访问率13.02%; 其中城市不成功访问20291户,不成功访问率14.09%; 县城不成功访问户1846户,不成功访问率7.08%。城市不成功访问比例明显偏高。如果这些不成功访问户具有一定的共性,比如在某类人群中居多,则会导致最终调查样本与最初随机抽选样本出现系统偏差,降低调查结果对总体推断的代表性。这次调查不同于以往的专项调查,专门搜集了不成功访问户的一些简单信息,借此可以评估修正不成功访问所产生的误差。
不成功访问的原因分主要为三种:一是抽中的样本是空户,无人居住,这种情况在不成功访问中占26.98%;二是两次访问,家中无人或无能力回答问卷,在不成功访问中占66.13%;三是三次访问皆被拒绝,在不成功访问中占6.88%。三种不成功访问的原因中,家中无人现象最多,空关户次之,拒绝调查比例最低。如果将拒绝调查户数与调查总户数比较,它仅占0.8%。这与现实情况有较大的出入。分析原因,可能是一些调查人员未能严格按照方案要求执行,将一些无法搜集到辅助资料的拒绝调查户简单归并到其他两类中。从过去的专项调查经验了解,这种拒绝调查户占调查总样本比例一般在5%以上,照此推算,在这次不成功访问户中至少有1/3,而不是6.88%,是属于拒绝调查。
空关户和家中无人户基本是一种随机行为,它对调查代表性不会产生较大影响。另外,这两种情况也无法搜集到辅助资料,因而就放弃对其的评估。下面主要是利用拒绝调查户的辅助资料,对总体估计值做近似修正。
拒绝调查户不填调查问卷但需回答四个问题,分别是户主年龄、户主文化程度、户主就业状况和职务。
从户主年龄看,36-45岁家庭拒绝调查比例最大,占该类家庭的1.23%以上;而小于35岁和大于55岁的户主家庭拒绝调查比例较小,占该类家庭的0.87%以下。
从户主文化程度看,高中和初中文化程度的家庭容易拒绝调查;其他文化程度家庭拒绝调查比例相对较低。
从户主就业状况看,个体户、失业下岗和非国有集体经济单位(主要包括三资企业、股份制企业、民营企业等)家庭拒绝调查现象严重,分别占该类人的1.68%、1.66%、1.41%和1.24%;个体被雇、内退人员、离退休人员和集体经济单位就业的户主家庭拒绝调查比例低,分别占该类人的0.43%、0.70%、0.76%和0.79%。
从户主职务情况看,司处级以上干部家庭、办事员家庭、商务人员和工人家庭拒绝比例较高,特别是司级以上干部家庭拒绝比例高达2.55%,居各类家庭之首;各类技术人员家庭配合调查程度很高,拒绝调查率一般在0.50-0.80%。
针对上述由于拒绝调查而遗漏的样本,我们用接受调查的同类户信息做近似估计,并列入汇总样本,重新计算城市居民收入指标,修正后的收入值与调查值基本持平。这一结果与以前一些人认为,调查样本中缺少高收入户、高干家庭,使得推断总体收入偏高的结论相左。主要原因是,近几年,城市失业下岗现象普遍,低收入户比重加大,其收入水平相对更低。这些家庭对生活现状多有不满情绪,拒绝调查现象较为普遍。就目前情况看,整个调查样本中缺少两类家庭:一是高收入户,一是极低收入户,两种情况大致相抵,对总体平均结果影响不大。
按户主特征分类的拒绝调查户情况表
按户主年龄分组 | 拒绝调查比例 | 按户主文化程度分组 | 拒绝调查比例 | |
小于30岁 | 0.76 | 大学以以上 | 0.94 | |
31-35岁 | 0.87 | 大专 | 0.8 | |
36-40岁 | 1.26 | 中专 | 0.7 | |
41-45岁 | 1.23 | 高中 | 1.17 | |
46-50岁 | 1.11 | 初中 | 1.08 | |
51-55岁 | 1.03 | 小学 | 0.83 | |
56-60岁 | 0.87 | | | |
大于60岁 | 0.75 | | | |
按户主就业状况分组 | 拒绝调查比例 | 按户主职务分组 | 拒绝调查比例 | |
国有经济单位职工 | 0.95 | 司级及以上干部 | 2.55 | |
集体经济单位职工 | 0.79 | 处级干部 | 1.2 | |
其他所有单位职工 | 1.24 | 科级干部 | 0.86 | |
个体经营者 | 1.68 | 高级职称 | 0.6 | |
个体被雇者 | 0.43 | 中级职称 | 0.71 | |
离退休在就业人员 | 0.96 | 初级职称 | 0.7 | |
其他就业者 | 1.02 | 技术员 | 0.54 | |
离退休人员 | 0.76 | 办事员 | 1.29 | |
家务劳动者 | 1.01 | 商业人员 | 1.12 | |
下岗人员 | 1.41 | 农林牧渔人员 | 0.79 | |
内退人员 | 0.7 | 工人 | 1.14 | |
失业者 | 1.66 | 军人 | 1.7 |
(四) 回答偏差
抽样调查能否取得成功,不但取决于合理的问卷设计、科学的样本抽选,更重要地取决于被调查者对所要调查问题的全面理解和准确回答。改革开放以来,随着国民经济的持续稳定发展,我国城市居民收入水平不断提高,生活状况明显改善,家庭资产迅速积累,居民对私有财产保护意识逐步增强,特别是对一些超高收入、额外收入、灰色收入等,思想存在顾虑往往瞒而不报;其次,在一次性调查中很难对家庭每一个成员进行当面调查,一般都采用代填问卷形式搜集资料,难免会遗漏部分家庭成员收入;另外,回忆填报方式以及对调查指标的片面理解,也会低估或错估部分收入。1999年10月,重庆市从300户连续记帐户中抽选了100户进行回防,让其回忆填报1999年9月的家庭收入情况。将回忆收入与记帐收入进行比较,结果发现前者比后者低17%左右。这仅是在假定记帐收入是准确的前提下测算的。如果考虑日记帐时瞒报收入,那么这一差距还会扩大。城镇居民基本情况调查是回忆填报上月收入,也会出现类似回答偏差,按保守估计,全国城镇居民收入回答偏差可能比实际值低10-15%。
综上所述,针对反映城镇居民家庭生活水平的最主要指标--收入而言,修正值比调查值高5-10%,其中调查城镇的不均衡分布使调查值上升5%左右;不成功访问因素,特别是拒绝调查情况,由于内部高低收入相抵,对调查收入无大影响;回答偏差使得调查收入下降10-15%;全国城镇居民收入抽样误差在99%的置信度下,相对误差不超过1%;多数调查市县在95%的置信度下,相对误差不能保证在3%以内。
参考文献
⑴(美国)W.G.科克伦著 《抽样技术》,中国统计出版社。
⑵肖春林、梁己香《数据质量评估是确保数据质量的重要手段》,《统计改革与发展论文专辑》,1995年。
⑶(美)肯尼思.D.贝利著 许真译《现代社会研究方法》,上海人民出版社,1986年。
⑷中国-加拿大统计信息管理项目 《调查技能教程》,2001年。
⑸杨冬妮《简介国外住户调查中抽样误差和非抽样误差的控制》。
⑹国家统计局城市社会经济调查队《中国城市住户调查手册》2001年。