如果我们要研究学校的教育模式对学生能力的影响,比如北京大学和清华大学的学生,
就有很不一样的能力。
显然,不同院系内部具有某种同质性,院系之间呢,却具有异质性。
假设,院系的规模大致相若,则规模就不是影响估计误差的重要来源了。
在这样的条件下,异质性就变成了影响估计误差的重要来源。
也就是说,从总体上看,要素之间有比较大的差异性,
如果异质性是随机分布的,我们依然可以采用简单随机抽样方法,但如果异质性分布不是- 随机的,
采用简单随机抽样方法显然就会带来较大的误差, 那我们就不得不对异质性做专门的处理,其中,
分层是减少因异质性的不随机分布而带来误差的重要方法。
还是我们的例子,大学的教育模式对学生能力的影响。
显然不同的院系有不同的影响,还有呢,不同的年级也有 不同的影响。从经验上看,能力的变化受时间和院系
的影响,换句话说,每个院系有自己的文化,学生能力的变化 和形成更多地是随时间,受院系文化影响的过程。
这样我们就可以根据院系随时间的变化看能力有怎样的变化,
这就是分层。在继续下边的讨论之前,我们要澄清一个误会,分层的层有时候不一定是等级,- 而是类别,
是把一个总体、研究总体划分为几个内部具有同质性的总体、
研究总体,在每个总体中呢,或采用一致的抽样框,
或采用不一致的抽样框,千万不要误会分层就是分等级,大多数
情况下是分类别。了解了分层的原理,那么到底怎么样分层呢?
分层的步骤很简单,第一,要分层就要把研究总体按照 研究特征变量,常见的比如说年龄啊,性别呀,
受教育程度来进行分层,在我们的例子中没有这些常见变量,我们只讨论教育模式对学生能力- 的影响,
现实中,有社科、理工、人文,还有院系、年级
和类别,用这些来分层。假设为了简单起见,我们只区分文和理两个大类的院系,
第二,在每一层采用合适的方法来抽样, 比如说简单随机抽样或者等距抽样、整群抽样,
等比例或者不等比例的抽样等等,甚至pps抽样都行。
比如,鉴于每一个班的内部具有异质性,可以采用整群抽样, 我们知道学生有文理两类的内部的差异性,
分层的时候已经区分为两类了,从院系
到班,可以采用任何简单抽样的方法,从班抽到学生呢,就可以采用整群抽样的办法。
第三,把每个层的样本合起来加总,
就是用来对总体进行推论的样本,把文和理两类样本加起来,就是一所学校的样本。
如果文理之间学生的数量相差的太大,也可以考虑按学生数量的比例分配样本。
那么在什么条件下可以采用分层抽样或者需要采用分层抽样呢?
基本的条件是对研究总体同质性程度有了解, 知道总体的同质性、异质性如何,
通常,总体在研究变量上的同质性越高,对分层的要求就越低。
还是以学校教育对学生能力的影响为例,这里,研究变量
就是学生能力,我们知道文理两科的学生在各自的内部具有同质性,
相互之间呢,又有异质性,至少我们要区分两个层。如果说,在文科内部,还有人文与社- 科之分,
在理科内部呢,还有理科与工科之分,那就要看异质性的程度是不是大到了
必须分层的程度。通常在研究变量上同质性程度越高,
对分层的需求就越低。除了对总体的同质性要求了解,
对于研究变量也要有了解,比如说,在文科中,学生 的能力可能是想象力,在理科中呢,学生的能力可能偏重逻辑能力,
两者可能有所不同,可是难道理科生就不需要想象力了吗? 不一定。这些都需要讨论,需要弄清楚。
对研究变量了解越充分,采用合适的分层方式,就越有利于
降低抽样误差。抽样误差是我们尽量尽量要避免的误差。
假设已经具备了分层的条件,那么依据哪些变量来分层呢?
分层依据的变量通常与研究目标有关,与研究变量有关系,
比如说,老年服务需求研究,我们的研究变量是服务需求,
与服务需求相关的变量有年龄、性别、失能状态、健康状态、子女状态。
除了与这些具体的变量有关以外,还有一个重要的变量, 那就是老年群体的社会经济地位。
假设,研究总体为北京市的老年人口,年龄六十岁以上的老年人口,
大家会认为老人们的服务需求具有异质性吗? 显然社会经济地位对服务需求的影响极大,
省部级退休干部与延庆县山里的老人对服务需求显然不同, 与退休的教授、副教授、研究员、副研究员、医生等等,
对服务的需求显然也不相同。在总体中,这三类人群 就需要作为三个层。
在抽样设计中,研究目的越复杂, 分层变量越多,要区分的层数也就越多,误差的来源可能也会越多。
实践中,希望尽可能地选取主要的分层变量,因为分层越多,看起来越精准,
事实上不可控的因素会越多,可能让抽样误差更大。
在抽样实践中, 有些分层明显,有一些分层则不太明显,有的分层不明显,
有的分层不明显,可能实际上还携带着层变量的分层,我们称之为内隐的分层 或者叫隐含的分层。
还是前面的例子,学生教育模式对学生能力的影响,以北京大学为例,我们知道有的院系一个- 年级有多个班,
比如信息科学技术学院, 有的呢,只有一个班,比如社会学系。如果有多个班的学院用平均能力对班进行排序,
然后呢,再抽取班级样本,则抽到的班样本不仅携带了院系信息, 也携带了能力信息。
经验上,我们的例子中,不仅按文理院系在分层,也在按照
能力进行分层,只是按能力分层被隐含在了按文理院系分层之中,对吗?
知道了什么是分层抽样,以及依据什么变量分层,
还要知道在什么情境下才需要分层以及如何分层,我们先讨论在什么情境下需要分层。
大家需要特别注意的是分层抽样通常不会独立使用,
通常用来构造子抽样框、子总体,它不是独立抽样的方法,
也不是末端抽样的方法,如果总体的异质性很大,比如文理科,那就需要分类处理, 用分类的方式分层,
通常,用于平行的异质性的子总体。比如说,大学里的院系,
院系之间是平行的,不是层级关系,强调一遍,分层不一定就是分等级,
更多的情况下是分类别,当然也有分等级的时候,也指层级关系,比如说同一个院系的不同年- 级之间是垂直的序列关系,
也叫层, 我们来看具体例子。
CGSS的分层有些特点,首先它把中国大陆的个体按照居住地属性 平行区分为了两大类,一类呢,是必选层,一类呢,是抽选层。
必选层,名称容易误解,指的是必须有样本的城市,
城市,抽选层呢,是抽到了就有样本,没有抽到就没有样本的省、市、自治区,
至于哪些层是必须要有样本,哪些需要通过抽样决定是否有样本,
大家可以通过百度搜索工具找到CGSS的抽样方案来看看, 表格中的抽样单位
我们先不管,讲到多阶段抽样的时候再讲,我们只需要知道每一个阶段的抽样单位都是分层- 产生的。
分层产生的。那么,到底怎么分层呢? 我有一个简单的建议不是标准哈,以我自己的研究为例,以CFPS为例,
通过百度搜索大家也能找到CFPS的抽样方案,分层依据的是研究主题的主要变量,
CFPS的研究主题是个体的生命历程与社会变迁之间的关系, 家庭是个体生命历程的载体,我们要的是,
代表性家庭户,目的是降低抽样误差,
抽样目标就是获得能代表中国大陆家庭的样本家户,
影响因素呢,依据同质性原理, 具有相似社会经济地位的家庭户,家庭环境具有相似性,
因此,抽样要考虑家庭户的社会经济地位。
抽样策略,指定抽样策略有两个依据,国家层面可推论,典型省市可推论,
因此呢我们区分了大省样本和小省样本, 大省样本可以在省级作推论,小省样本只能在国家层面作推论。
回到我们的课题,入学机会的地区不平等研究,
如果希望在国家层面作推论就不需要考虑是否可以在地区层面作推论。
作推论。假设已经分好层了,怎么在各层次去分配样本呢?
样本量的分配有两种基本的方法, 第一种,等比例分配。就是让各层的样本量与要素的规模成比例,
在需要保证不同规模的要素都有样本入选时,这是
这是最常用的分配样本量的办法,如果某个要素群体规模很大,
按照比例分配样本量呢,就会使它的样本量很大, 进而产生浪费,这时候就可以依据经验或者既有的研究结论减少
这个群体的样本量,这样自然就形成了不等比例的抽样。
灵活运用等比例和不等比例的抽样, 也是提高抽样效率和减少误差的有效途径。
怎么分层呢?
我们看一下CFPS的分层,第一个层,其实只产生了两个子抽样框, 形式化的层,是什么?
我们区分了大省和小省,大省一共有五个,在大省层中 我们又区分了两层,辽宁、甘肃、河南、广东,
各为一个抽样框,但遵循相同的抽样方法, 大省中还有上海,上海为一个独立的抽样框,实际上,
这五个省是各自为一个独立的抽样框,其中呢,有四个省的抽样策略
是一样的,另外的二十个省市自治区是一个抽样框。
这是第一层,我们区分了大省小省。我们再看第二层次的分层,
以二十个小省为例,产出了初级抽样单位,二十个 二十个省级行政区,按照人均社会经济指标降序排列,
在每一个省级行政区内,以省会开始,
地级市按照人均GDP指标降序排列,在地级市内呢,则区分三个层,
区、县级市和县,在每一个层内呢,按照区、县级市、
县的顺序以人均GDP降序排列,保证城市属性越强的越排在排序的前面。
这里就隐含了城乡属性的分层, 抽到的样本县、区,就是我们的PSU,初级抽样单位,
在多阶段混合抽样中我们会讲到这个概念。按照如此分层抽取到的PSU,
既有发达的,也有不发达的,既有城市,也有县,
人多的地区有样本,人少的地区也有样本,这样的抽样是有智慧的,
调查数据也表明,CFPS的抽样就主要研究变量而言, 具有很好的代表性,这就是分层抽样,
分层,帮你区分异质性,如果总体有极大的异质性,就一定要区别对待,
否则就会出现穷人代表富人,富人代表穷人的混乱状态,
分层抽样就讲到这里,谢谢大家。