中国的工资:经济学分析
上QQ阅读APP看书,第一时间看更新

三、变量、方程与估计方法

(一)变量

1.被解释变量

调查数据提供了关于样本企业的两组工资水平:一是有关职员的月平均工资(即企业白领月工资);二是有关工人的月平均工资(即企业蓝领月工资)。由于数据中还报告了每个企业员工每天工作的时间(t)以及周工作日(d),据此我们令 HW为小时平均工资,并将月平均工资(MW)处理如下:

在得到小时平均工资后,我们再对其取自然对数,得到本文的被解释变量。需要说明的是,由于我们无法获得这些城市的当年物价指数,无法将其调整为实际工资,因此文中只能使用名义工资作为被解释变量。

2.解释变量

本文最为关注的核心解释变量是对集体工资议价的度量。本次调查数据中提供了两个有关集体工资议价的指标,分别是“本企业是否允许集体工资谈判”和“本企业是否有集体工资协议”,答案“是”和“否”分别用“1”和“0”表示。由于集体工资协议代表着一种更加正式的议价形式,在已有文献中,集体工资协议份数常常被用来度量一国的工资议价水平(Vroman,1984; Hartog et al.,2002,等),而“是否允许集体工资谈判”仅仅是一个主观上较为随意的回答,因此我们采用企业对“是否有集体工资协议”这一问题的答案作为对集体工资议价的度量。本实证研究包含的其他控制变量说明如下。

反映员工特征的控制变量有:(1)员工受教育水平。调查数据中报告了企业里受过大学教育以上水平的员工比例和初中教育以上水平的工人比例,分别用“0~20%”、“20%~40%”、“40%~60%”和“60%以上”四个档次来表示。由于受大学教育以上水平的员工多为企业白领职员,因此这一指标可近似地用于度量企业职员的受教育水平。在文中,我们分别用1、2、3、4对这四个档次赋值,并分别放入职员工资和工人工资决定方程中进行估计。(2)员工在该企业的工作年限。调查数据分别报告了职员和工人在该企业的工作年限,我们将其作为度量职工工作经验的指标。需要强调的是,这一指标并不能全面地反映职工的工作经验,因为它没有反映在该企业之前的工作经验。Peng(1992)则对这两种工作经验作了区分,并发现总体工作经验对于工资决定的影响强于本企业工作经验。由于这一数据中不提供总体工作经验,因此我们只能使用在本企业的工作年限对工作经验加以度量。(3)工会情况。在后面我们将看到,在集体工资议价机制当中,工会将会作为一个非常重要的变量发挥作用。本调查数据当中提供了样本企业中是否存在工会的信息,我们也对之加以控制。

反映企业特征的控制变量包括:(1)企业规模变量。数据中提供了有关企业固定资产净值、职工人数等通常用于度量企业规模的变量。我们用固定资产净值除以职工人数,得到企业资本密集度,并对其取自然对数。除此之外,我们还用这个指标来度量该企业的产业特征,即该产业属于资本密集型或劳动密集型。在产业特征控制上,尽管数据中报告了每个企业所属四位数产业类型,但是由于样本数量有限,有些产业包括的企业样本过少,因此不便用直接控制产业的办法控制产业特征。(2)企业所有制类型。调查数据提供了四种所有制类型,即国有、国有改制、私营和外资。我们将其处理为哑变量,并以国有企业作为基准。

另外,调查数据还提供了本地同行业其他企业的工人月工资水平。考虑到处于同一地点的同行业企业之间常常相互参照确定工资水平的特点,我们也对其取自然对数后纳入方程。最后,我们还将12个地市处理为哑变量,并以北京为基准,以控制地区特征。

(二)方程

根据上面所定义的变量,本文估计的基本方程如下:

即工资由个人、企业和市场等几个层面的因素决定,其中反映企业员工特征的因素包括员工受教育水平、工作经验等;企业层面的因素包括企业规模、所有制、工会组织、工资议价、劳动培训等;市场层面因素包括本地同行业其他企业的工资水平;此外还包括作为反映样本城市特征的地区变量。

需要说明的另一点是,在最终进入方程估计的数据上,由于部分企业未回答全部问题,因此需要对企业样本进行删减,最终获得的平衡截面数据包括750家企业。表4给出了这些企业的地区分布;而表5则报告了部分变量的统计描述。

表4 样本企业地区分布

表5 部分变量的统计描述

(三)方法

在后面的计量分析中,本文将使用分位数回归(Quantile Regression)的方法对方程进行估计。分位数回归由Koenker和Bassett(1978)提出,近年来得到了较多关注和应用。分位数回归根据被解释变量的条件分位数对解释变量进行回归,因而可以得到不同分位水平下的拟合值。而普通最小二乘法(OLS)刻画的只是处于均值水平上解释变量对被解释变量的影响。

我们将分位数回归的思想简单表述如下:令随机变量Y的分布函数为Fy)=PYy),则Y的第τ个分位水平可表示为Qτ)=infyFy)≥τ),如中位数(median)即可表示为Q(0.5)=infyFy)≥0.5)。

我们知道,对于Y的一组随机样本yi={y1, y2, …, yn}, i=1,2, …, n,样本均值是求解

的最优解,其中ξ为残差值。而求解样本中位数时,则需要最小化残差绝对值之和:

将上式拓展至一般形式:

上式中的τ为某一分位水平。对于一般线性条件分位方程Qτ|X=x)=x′βτ),其中x′为解释变量向量,βτ)表示在第τ分位水平上解释变量的系数估计值,该估计值可通过下式计算得到

与OLS估计相比较,分位数回归对于随机变量的分布情况和变异程度等条件的要求较低,因此在随机变量不能较好地满足正态分布或随机变量出现异常值时,分位数回归能够提供更加稳健的估计结果。图2中的两幅图分别为样本企业职员和工人小时工资对数值的正态Q-Q(Quantile-Quantile)图,可以用于检验这两个被解释变量的分布情况。

图2 职员和工人小时工资对数值的正态Q-Q图

注:上面两幅图的横轴是理论分位数,纵轴是由随机变量散点构成的样本分位分布。

根据正态Q-Q图的相关设定,如果图中的点能够较好地围绕在直线附近,则可以认为该样本来自正态总体。但是从图中可以看到,尽管处于中间位置的散点能够较好地与直线相拟合,但是在两幅图的直线两端,散点均出现了不同方向的偏离。因此,这两个被解释变量都不能较好地符合正态分布,在估计式(2)时使用分位数回归是一个更好的选择。

我们在图3中对人均固定资产净值对数值和其他企业工资水平对数值与职员小时工资对数值进行了双变量分位回归拟合,以便检验在不同分位水平上变量之间的拟合情况。图中的虚线是均值拟合的结果,其余的7条分别是在不同分位水平下的拟合结果。容易看出,这两个解释变量与被解释变量之间的拟合情况在不同分位水平下存在一定的差异,尤其是对于固定资产净值而言,在有些分位水平下与职员工资之间的关系为正,而在有些水平下为负,这再次证明了分位数回归在本文估计中的必要性。

图3 均固定资产净值和其他企业工资水平对数值与职员小时工资对数值的双变量分位回归拟合