如何在考虑抽样权重后对复杂抽样设计的调查数据进行回归分析

发布网友发布时间：2022-04-26 13:47

共2个回答

热心网友时间：2022-05-15 22:03

在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而，由于当前市场经济情况的多样性，经济发展的不均衡性，以及地域宽广性，导致情况多种多样；实际情况的复杂，决定了方案的复杂性，增加了具体抽样的难度。经过多年的探讨，区域二相抽样调查比较符合当前我国的实际情况，我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。

　　一、样本单位数量的确定原则

　　一般情况下，确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验，市场潜力和推断等涉及量比较严格的调查需要的样本量比较大，而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查，样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题，即要有定性的考虑，也要有定量的考虑；从定性的方面考虑，决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。

从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来，样本量的大小主要取决于：

(1)研究对象的变化程度，即变异程度；

(2)要求和允许的误差大小，即精度要求；

(3)要求推断的置信度，一般情况下，置信度取为95%；

(4)总体的大小；

(5)抽样的方法。

　　也就是说,研究的问题越复杂,差异越大时,样本量要求越大；要求的精度越高,可推断性要求越高时,样本量也越大；同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系；而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1；分层抽样由于抽样效率高于简单随机抽样，其设计效应的值小于1,合适恰当的分层，将使层内样本差异变小，层内差异越小，设计效应小于1的幅度越大；多阶抽样由于效率低于简单随机抽样，设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

　　二、样本量的确定方法

　　如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便，然后将样本量根据一定方法分配到各个子域中去。所以，区域二相抽样不能计算样本量的说法是不科学的。

　　1．简单随机抽样确定样本量主要有两种类型:

　　（1）对于平均数类型的变量

　　对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据，总体单位数N。

计算公式为:n=σ2/(e2/Z2+σ2/N)

特殊情况下,如果是很大总体,计算公式变为:n= Z2σ2/e2

例如希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96。根据估计总体的标准差为150元,总体单位数为1000。

样本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88

(2)于百分比类型的变量

对于已知数据为百分比,一般根据下列步骤计算样本量。已知调查结果的精度值百分比(E),以及置信度(L),比例估计(P)的精度,即样本变异程度，总体数为N。

则计算公式为:n=P(1-P)/(e2/Z2+ P(1-P)/N)

同样,特殊情况下如果不考虑总体,公式为:n= Z2P(1-P)/e2

一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为0.5。

例如:希望平均收入的误差在正负0.05之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96，估计P为0.5,总体单位数为1000。样本量为:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=278

2.样本量分配方法

　　以上分析我们获得了采用简单随机抽样公式计算得到的样本量，总的样本量需要在此基础上乘以设计效应的值得到。由于样本总量已经确定,我们采用总样本量固定方法分配样本,这种方法包括按照比例分配和不按照比例分配两类。实际工作中首先计算取得区县总的样本量,然后逐级将其分配到各阶分层中,如果不清楚各阶分层的规模和方差等,一般采取比例分配或者比例平方根分配法。如果有一定辅助变量可以使用，可以采用按照规模分配法分配样本量。

　　3.样本量和总体大小的关系:

　　在其它条件一定的情况下，即误差、置信度、抽样比率一定，样本量随总体的大小而变化。但是，总体越大，其变化越不明显；总体较小时，变化明显。其变化趋势如下：

　　二者之间的变化并非是线性关系。所以，样本量并不是越大越好，应该综合考虑，实际工作中只要达到要求就可以了。

　　三、贸易抽样调查方案样本量的确定

　　根据以上的分析,我们可以确定具体的样本量。当前使用的贸易抽样新方案采用多阶分层区域二相抽样方法、以零售额为核心指标抽取样本。方案规定，县区以下阶分为乡、镇、街道层，乡镇街道一般根据繁华、非繁华分层，层内采用PPS抽样完成对乡镇街道的抽取；乡镇街道以下阶分为居委会、村委会、市场内层，居委会、村委会根据繁华、非繁华分层，层内采用简单随机抽样完成对居委会村委会的抽取，市场内层抽样根据方案完成；最后一阶首先根据规模、类别分层，层内采用简单随机抽样完成对居委会具体样本的抽取。其中，确定居委会具体样本的方法和数量比较模糊,需要基层做很多工作，给基层造成了一定的混乱，增加了很大的负担。

　　我们决定首先采取简单随机抽样的方法计算区县的样本量，之所以首先对区县计算样本量,主要是考虑，虽然我们方案中没有要求对区县的估计量，但是区县一级是我们做计划和决策的基础，具有承上启下的作用，如果区县级获得的估计量精度比较高，就可以保证上一级的估计量具有更高的精度，而且各个区县的样本量可以认为是相同的，这主要是因为各个区县的总体数都比较多，而且我们也不清楚；同时也不可能事先进行区县方差估计。没有首先计算区县以下各阶分层的样本量,主要是考虑:

　　（1）如果计算区县以下某阶分层的样本量,然后再将计算的样本量合并,将显著增加样本量，增加基层的负担。

　　（2）事实上,对于计算阶可以比较好的得到它的估计量,但我们现在不需要得到区县以下各阶分层的估计量,我们仅仅需要区县的估计量,没有必要计算区县以下阶样本量。

　　（3）我们直接对整个区县以简单随机抽样进行抽取,然后将其样本量合理分配到各阶分层中,这样可以使用较少样本量得到区县较好的估计量。

　　以下我们以试点地区批零业为对象进行研究。由于没有误差限以及置信度和抽样比率的值。我们可以采用常用参数:设定区县总体为很大,置信度是95%,抽样比率保守估计是0.5,抽样误差不能大于15%,根据公式计算得到样本量为43个。由于采取多阶分层抽样,我们如何设定抽样设计效应呢?区县及以下是三阶分层抽样,只要在各阶进行合适的分层，其设计效应应该在2-3之间,我们在这里取保守值3,那么得到本区县样本量是129个,这个样本量就可以根据新方案得到区县要求误差内的估计值。

　　1.确定办事处、居委会、村委会样本量

　　根据方案,每个居委会抽取样本5-10个,那么这个样本量是否可行呢?这里涉及如何将区县样本分配到街道和居委会中去，根据方案要求，街道抽取采取先分层，后对层内进行PPS抽样；那么分配样本是否也采取同样方法呢？主要看辅助变量与样本量之间的关联程度，方案中提供了两个辅助变量：人口数和个体数，对于辅助变量是个体数的完全可以使用规模分配方法分配样本量，个体数多的分配较多的样本量；对于辅助变量是人口数的如果采取规模分配方法，由于人口数与一个地区的个体单位数没有必然的联系，可能导致某些居委会的个体数比较多，却分配了较少的样本量，使得居委会分层变的困难，同时使居委会方差显著增大。而获得较多样本量的居委会，分层的效果和方差提高幅度有限，故采用比例分配的方法可能更加合适一些。对于居委会村委会的抽取，由于本阶可能存在市场内的抽样，分配复杂一些；如果本阶有市场内抽样，可以适当减少居委会村委会的样本量，但应该大于本阶样本量的80%，由于市场内抽样的特殊性，建议将本阶样本量全部分配给居委会村委会，我们所进行的试点就是将样本全部分配给居委会；至于市场内抽样的具体实施，可以根据方案操作完成。对居委会村委会层内，由于使用简单随机抽样完成，采用比例分配平均分配就可。

　　在实际工作时,由于一个区县包括全部乡镇街道或其中的一个；根据方案，区县抽取办事处的数量应该介于12-4个之间,对应于抽中乡、镇、街道的全部或其中一个，那么其每一个乡镇街道采取比例分配平均分配的样本量应该是11-32个之间；所抽中的居委会、村委会数量应该介于16-48个之间,如果个别乡镇街道抽中的居委会是2个,则其居委会总数相应减少一些；最后,每个居委会、村委会的样本量应该介于3-16个之间,大部分介于5-10之间。以上的讨论没有考虑总体的大小,如果考虑到居委会、村委会的总体有限,则每个居委会村委会的样本量可以减少一些,具体可以采用以下公式得到具体样本量的调整数:

　　样本量n=n1*N/(N+n1)。N是本地区总体，n1 是给本地区分配样本量

　　居委会样本量的调整数，应该作为本居委会样本量的底限。

　　确定办事处、居委会村委会的样本量,与以下几点有关:

　　a)估计量的误差、置信度，可以决定简单随机抽样的样本量

　　b)与采用的抽样方法有关系,它决定了设计效应的大小。例如:分层抽样的设计效应值小于1,多阶抽样的设计效应值大于1。可以决定整个抽样的样本量。

　　c)与每一阶的分层的数目有关系,所以,应该重点考虑分层的问题,分层太多,没有必要；分层太少,导致层内的方差增大,可能影响估计值的精度以及设计效应的值,所以，在每阶分层时,应该合理考虑,使得样本的变异程度在层内达到一个合理水平。

　　根据以上原则，我们在包头的抽样试点共抽取4个办事处,包括14个居委会；一个乡,包括4个村委会,经过清查共有批零业1042个,单位70个；餐饮业250个,单位3个。由于我们使用人口数作为辅助变量，应该采用比例分配方法平均分配样本量，这样每个*事处得到26个样本, 对于抽取4个居委会的办事处,每个居委会分配得到7个样本；对于抽取2个居委会的办事处,每个居委会分配到13个样本。然后根据居委会总体对样本量做出调整，得到居委会实际样本量。

　　2.确定居委会村委会内分层样本量

　　以上我们讨论如何分配给乡镇居委会村委会样本量,现在分析给居委会村委会以下各层分配样本量,这一步,清查的工作就显得非常重要了,重点应该清查规模、类别,首先是规模，规模的大小不应该根据工商注册为单位或个体决定，应该根据实际情况，即使是个体，如果规模较大，也应该归入大规模分层中，这样就可以使得每层的样本变异程度显著降低，从而提高精确度。根据实际情况可以包括两种：

　　（1）如果全部是规模比较小的单位个体户，我们可以根据类别进行适当的分组，将某一类单位比较多的单独分层；将另外类别比较少的，可以几类合并进行抽取具体样本，分层不要多于4层，并保证每层的样本量不小于2个。由于居委会样本量数目已经确定，我们可以直接采取比例分配方法，确定各层样本量。

　　（2）如果规模比较大的和规模小的并存，可以将规模比较大的单独分层，不用考虑其中的类别；将规模较小的主要是个体户可以根据类别进行分层；其中的难题是如何将样本量在规模大的和规模小的之间分配，因为大规模层内样本变异程度有可能很大，应该抽取较多的样本量，经过测试，如果大规模层总体小于等于5，应该对其进行全面调查；如果大于5个，可以采用以下的公式计算得到：

n=0.25/(e2/t2+ 0.25/N)，其中：e=30%,t=2.1,N为规模较大的数目。

　　其他规模较小的，使用比例分配法分配其他的样本，实际分层时，最好不要超过4层，保证每层不少于2个，由于大规模层的存在，可能占去了较多的样本量，导致其它层不够分配，这种情况下，可考虑增加层内一定样本量。

　　经过以上的分析、计算可以得到居委会村委会的样本数量。

　　总结:

　　由于情况的多样性，各地在具体实施方案时可能有所不同，有的分层少一些，有的多一些，但是计算的方法和原则是相同的，各地应该在保证抽样精度的前提下，得到合适的样本量，同时加大对于样本点的管理。下表是我们试点地区抽中居委会的清查数目，以及实际抽中的样本量，与调整数比较，在18个居委会中，16个居委会认为适合要求，2个居委会样本量数目有一些偏少，主要是由于对居委会规模较大的层，没有达到抽取要求；表五、六、七列是大规模层的总体数和应该分配的样本量，在试点中个别地区没有达到要求。这提示我们，应该非常重视各阶的清查工作，提前计算得到得到合适的样本量。在认真清查以后，根据清查结果，对办事处、居委会进行合理的分层,以规定的方法抽取适当的办事处和居委会；同时应该将重点放在对居委会内单位的清查上，将规模大的单位放在一层,其他个体可以根据类别进行合适分层抽样，及时计算得到各层的样本量。

　　我们以上的分析计算，均取比较保守的参数，实际上，样本的变异程度即P的值没有达到0.5；同时由于我们在各阶采取了合理的分层，保证了设计效应的值应该小于3，所以对于县区的估计值完全可以达到误差要求。

热心网友时间：2022-05-15 22:03

考虑抽样权重后对复杂抽样设计的调查数据进行回归分析俺这边完全可以实现你的要求，