读书笔记——What are we weighting for?翻译连载

II我们试图去估计什么?
A.一个总体的描述统计
有些时候,课题研究的目的是去估计所关心的总体的描述性统计。例如,1967年母国的贫困率,官方基于人口调查的测量为13%。但是有人试图基于1968年的第一波动态收入面板研究Panel Study of Income Dynamics(PSID)的1967年的收入报告估计贫困率,困难在于PSID使用的样本,有意识的夸大了低收入家庭的代表性,将1967年的低收入家庭经济机会调查报告纳入了补充样本,与其他调查来自不同部分的总体有不同概率的样本相同,过抽样的要点是获取特定部分所要研究的subpopulation的更精确的信息,在这种情况下是低收入群体。
如果用PSID样本的贫困率估计1967年美国人口的贫困率,美国的贫困率为26%。当然,估计结果是上偏的,因为PSID过度代表了穷人。但是,可以通过使用PSID样本的加权贫困率,用选择概率的倒数加权,获得无偏和一致估计。对这种情形的一个认识是,PSID样本通过一个通过一个变形了的镜子观察美国人口,夸大了低收入人群。权重估计通过一个反向的变形的镜子消除了最初的夸大来观察样本。PSID的加权贫困率为12%,比26%的估计更加合理。
贫困率的例子表明一种简单的情况,即基于样本估计总体均值,代表目标总体会产生系统性的失败,但是可以通过加权来代表总体。然而许多经济研究追求更复杂的总体统计数字。例如假设总体的描述行统计,希望去估计相同教育年限下和潜在工作经历下(年龄减去受教育年限再减去5)黑人和白人1967年的收入差距。一个典型的方法是去尝试估计总体的线性的log收入对一个虚拟变量的线性投影,黑人虚拟变量等于1,同时控制教育年限和和潜在经历的四分位。
假设一个估计,通过最小二乘回归估计总体,收入的对数对PSID样本中的黑人和白人男性的家庭户主的种族、教育年限和潜在工作经历的四分位数进行回归。按照以上方法估计的黑人的虚拟变量的相关系数为-0.344。因为e的-0.344次幂为0.71,估计表明,在相同教育和潜在经历男性户主家庭,黑人收入是白人的71%。
然而在这个贫困率估计的例子中,估计可能因为对PSID的过抽样而产生扭曲,那将会导致对男性家庭户主层面不具代表性的样本。但是,可以通过用加权运用一个相反的变形的镜子(哈哈镜)funhouse mirror。特别是,相较于应用普通最小二乘法(相同权重)样本回归,可以用加权的最小二乘(WLS),通过选择概率的倒数加权最小化残差的平方和。由此估计的黑人虚拟变量的相关系数为-0.260,这表明在男性的户主中,相同学历和潜在经历,黑人的收入是白人的77%。这仍然是一个巨大的差距,但不如OLS估计的那样大。一个可能的原因是PSID过度代表了低收入总体,在南部非大都市地区的低收入家庭的过度抽样。对PSID的非加权可能导致低估了黑人的典型收入比白人的更多。
我们这两个例子有一个共通处,基于样本数据的描述性统计估计。如果这个样本是目标总体的代表(最直接的情况是一个从总体中随机抽样的样本),通过对样本的统计总体统计是一致性估计。如果样本系统性的以一种已知的的方式没有代表总体,对样本统计数据的估计的分析一般情况下总体估计不具一致性,但是可以通过给样本数据重新加权,用选择概率的倒数加权,可以是一致性估计。
这点是直观的,没有任何争议。那么,为什么权重问题在研究人员中引起了困惑和沮丧呢?答案是,更多的经济研究人员的目的不是估计总体的描述性统计,而是估计因果效应,文章剩下的篇幅将进行说明。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件联系,一经查实,本站将立刻删除。:万创散文网 » 读书笔记——What are we weighting for?翻译连载